JP7335204B2

JP7335204B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP7335204B2
Application number: JP2020101720A
Authority: JP
Inventors: 琢佐々木; 啓太三上; 将司外山; 哲希柴田; 鮎美松本
Original assignee: Nippon Telegraph and Telephone Corp; NTT Communications Corp
Current assignee: Nippon Telegraph and Telephone Corp; NTT Communications Corp
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2023-08-29
Anticipated expiration: 2040-06-11
Also published as: JP2021196754A

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。

従来、画像解析において、解析対象の画像から、オブジェクト（例えば、人物）が写る部分を切り出し、切り出した部分の特徴量を抽出し、抽出した特徴量に基づき、切り出した部分の解析を行う技術がある。ここで、深層学習により画像解析を行う場合、オブジェクトの特徴量を抽出する工程において、いわゆるアテンション機構を搭載したモデル（アテンションモデル）を用いることが提案されている（非特許文献１参照）。

アテンションモデルは、切り出し済みの画像（切出済画像）に含まれるいくつかの領域に着目し、着目する領域ごとに特徴量を抽出するモデルである。例えば、オブジェクトが人物である場合、アテンションモデルは、切出済画像から頭部、上半身、下半身等の領域をピックアップし、ピックアップした領域ごとに特徴量を抽出する。このように着目する領域ごとに特徴量を抽出することで、切り出した部分の解析を行う際、解析精度を向上させることができる。

ここで、アテンションモデルの一つに、HA-CNN（Harmonious Attention Convolutional Neural Network、非特許文献１参照）がある。このHA-CNNの特徴量抽出モジュールは、１本のglobal branchと、複数本のlocal branchとを有する。このlocal branchはそれぞれ、切出済画像からオブジェクトの一部の領域をピックアップし、そのピックアップした領域の特徴量を抽出する。そして、解析モジュール（例えば、画像のオブジェクトの分類モジュールおよび属性推定モジュール）は、抽出された各領域の特徴量に基づき、オブジェクトの解析を行う。

ここで、HA-CNNの特徴量抽出モジュールの学習は、当該特徴量抽出モジュールの後続のモジュール（例えば、解析モジュール）から逆伝搬されてきた誤差を基に、特徴量抽出モジュールの重みパラメータを更新することにより行われる。

例えば、HA-CNNの解析モジュールが、画像のオブジェクトの分類モジュールおよび属性推定モジュールを有する場合を考える。この場合、分類モジュールおよび属性推定モジュールから逆伝搬されてきた誤差に基づき、特徴量抽出モジュールの各local branchの重みパラメータが更新される。これによって、特徴量抽出モジュールの各local branchは、解析モジュールによる解析精度を向上させるように最適化される。

Wei Li et al., Harmonious Attention Network for Person Re-Identification, CVPR2018 (arXiv:1802.08122)、［令和2年1月21日検索］、インターネット＜URL：https://arxiv.org/abs/1802.08122＞

アテンションモデルの学習において、公開データセットを学習用データとして用いることが多い。しかしながら、公開データセットを用いてアテンションモデルの学習を行う場合、アテンションモデルが所望の画像解析精度を満たすことができない場合があった。

本発明は、上記に鑑みてなされたものであって、画像解析の精度向上のために、解析のために用いられる適切な画像を提供することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の画像処理装置は、所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置であって、画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断する切断部と、切断部によって切断された切断画像を所望の被写体が撮像されているか否かの解析のために用いられる画像として出力する出力部と、を有することを特徴とする。

また、本発明の画像処理方法は、所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置が実行する画像処理方法であって、画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断する工程と、切断された切断画像を所望の被写体が撮像されているか否かの解析のために用いられる画像として出力する工程と、を含んだことを特徴とする。

また、本発明の画像処理プログラムは、画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断するステップと、切断された切断画像を所望の被写体が撮像されているか否かの解析のために用いられる画像として出力するステップと、をコンピュータに実行させる。

本発明によれば、画像解析の精度向上のために、解析のために用いられる適切な画像を提供することができる。

図１は、実施の形態に係る解析システムの構成の一例を示すブロック図である。図２は、解析装置による解析処理の内容を説明する図である。図３は、画像処理装置の構成の一例を示すブロック図である。図４は、切断部の処理内容を説明する図である。図５は、切断部の処理内容を説明する図である。図６は、切断部の処理内容を説明する図である。図７は、切断部の処理内容を説明する図である。図８は、学習装置の構成の一例を示すブロック図である。図９は、モデルの概要及び学習処理の概要を説明する図である。図１０は、モデルの概要及び学習処理の概要を説明する図である。図１１は、切断画像を用いた学習を説明する図である。図１２は、切断画像を用いた学習を説明する図である。図１３は、切断画像を用いた学習を説明する図である。図１４は、切断画像を用いた学習を説明する図である。図１５は、解析装置の構成の一例を示すブロック図である。図１６は、実施の形態に係る画像処理の処理手順を示すフローチャートである。図１７は、実施の形態における学習処理の処理手順を示すフローチャートである。図１８は、プログラムが実行されることにより、画像処理装置、学習装置及び解析装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係る画像処理装置、画像処理方法及び画像処理プログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。

［実施の形態］
まず、実施の形態について説明する。本実施の形態は、ディープニューラルネットワークによって構成されるモデルを用いて画像解析を行う解析システムに関する。モデルは、被写体を含む切り出し済みの画像（切出済画像）における複数の領域ごとに特徴量を抽出し、抽出した特徴量を用いて、画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行うアテンションモデルである。

［解析システムの構成］
まず、本実施の形態における解析システムの構成について説明する。図１は、実施の形態における解析システムの構成の一例を示すブロック図である。

図１に示すように、実施の形態に係る解析システム１は、ディープニューラルネットワークによって構成されるモデル（アテンションモデルモデル）を用いて画像解析を行う解析装置３０と、解析装置３０のモデルの学習を実行する学習システム２とを有する。

図２は、解析装置３０による解析処理の内容を説明する図である。解析装置３０が用いるモデルは、矩形の切出済画像（矩形画像）における複数の領域ごとに特徴量を抽出する複数の特徴抽出モジュール（モジュール）と、各特徴抽出モジュールが抽出した特徴量を用いて、切出済画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う解析モジュールとを有する。

図２に示すように、解析装置３０は、切出済画像から、各特徴抽出モジュールに対応する領域を割り当てる（図２の（１）参照）。この領域には、属性推定対象或いは照合対象の被写体（オブジェクト）の一部が含まれる。オブジェクトは、例えば、人物や物体である。例えば、オブジェクトが人物である場合、解析装置３０は、人物の頭部、胸部、腰部及び足部のそれぞれを含む領域Ｒ１～Ｒ４を、それぞれ対応するモデルの特徴抽出モジュールに割り当てる。

そして、解析装置３０は、モデルを用いて画像解析を行う（図２の（２）参照）。具体的には、解析装置３０では、モデルにおける各特徴抽出モジュールが、それぞれ割り当てられた領域ごとに特徴量（特徴量ベクトル）を抽出する特徴量抽出ステップを行う（図２のステップＳ１）。続いて、モデルは、各特徴抽出モジュールが抽出した特徴量を用いて、画像内のオブジェクトが属する属性を推定する属性推定ステップ（図２のステップＳ２）またはオブジェクトと検出対象のオブジェクトとを照合する照合ステップ（図２のステップＳ３）を行い、解析結果を出力する。属性は、人物の性別、年代の他、骨格や歩容も含む。また、属性は、人間のみに限らず、人間以外の動物の種別等であってもよく、また、車両、ロボット等の物体であってもよい。

図２の例では、モデルは、入力された画像ｘの人物の属性を「男性」であると推定する。また、モデルは、入力された画像ｘの人物と検出対象の人物とを照合し、画像ｘの人物と検出対象の人物とは「他人」であると解析する。

また、図１に示すように、学習システム２は、モデルの学習を行う学習装置２０と、学習装置２０の前段に設けられた画像処理装置１０とを有する。

画像処理装置１０は、学習装置２０がモデルの学習に使用する学習用画像を生成する。画像処理装置１０は、画像からオブジェクトが写る部分を切り出した矩形の切出済画像を、２以上の画像に切断する。例えば、切出済画像は、画像ごとに、オブジェクトの属性及びオブジェクトの識別情報を含むオブジェクト情報が付与されたものであり、データセットとして公開されたものである。

画像処理装置１０は、公開されている画像データセットの切出済画像を取得し、これらの切出済画像を２以上の画像に切断する。ここで、画像処理装置１０は、切出済画像を等分割するのではなく、切断位置を変化させて分割する。これによって、画像処理装置１０は、切断画像に写るオブジェクトの部分や、切断画像に占めるオブジェクトの面積に変化を付けている。そして、画像処理装置１０は、各切断画像を学習用画像として学習装置２０に出力する。画像処理装置１０は、各切断画像に、元の切出済画像に付与されたオブジェクト情報と切断情報とを付与し、学習用画像として出力する。なお、画像処理装置１０が生成する画像は、学習用画像に限らず、所望の被写体が撮像されているか否かの解析のために用いられる画像であればよい。

学習装置２０は、画像処理装置１０が生成した切断画像を学習用画像として用いてモデルの学習を行う。学習装置２０は、切断画像からの各モジュールに対する領域の割り当てを学習する第１の学習と、各モジュールにおいて抽出された各特徴量に基づく画像解析を学習する第２の学習と、を実行する。

このように、本実施の形態では、学習装置２０の前段の画像処理装置１０において、切出済画像を、切断位置を変化させて２以上の画像に切断することによって、学習用画像のバリエーションを増やしている。この結果、学習装置２０は、多種多様な学習用画像を用いてモデルの学習を行うため、モデルの解析精度を向上できる。

［画像処理装置］
次に、画像処理装置１０の構成について説明する。図３は、画像処理装置１０の構成の一例を示すブロック図である。図３に示すように、画像処理装置１０は、通信部１１、記憶部１２、制御部１３、入力部１４及び出力部１５を有する。

通信部１１は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１１は、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置（例えば、学習装置２０）と制御部１３（後述）との間の通信を行う。

記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子によって実現され、画像処理装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部１２は、画像データセット１２１及び学習用画像１２２を有する。

画像データセット１２１は、例えば、公開された切出済画像のデータセットである。切出済画像は、画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きい矩形画像である。切出済画像は、予め、他の装置等によって、画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きくなるように、各種画像から切り出された画像である。なお、切出済画像は、画像ごとに、オブジェクトの属性及びオブジェクトの識別情報を含むオブジェクト情報が付与される。

学習用画像１２２は、後述する切断部１３１によって処理された複数の切断画像１２３と、元の切出済画像のどの位置で切断したかを示す切断情報１２４とが対応付けられた画像である。また、切断画像１２３には、元の切出済画像に付与されたオブジェクト情報が付与される。学習用画像１２２は、学習装置２０に出力され、学習装置２０によるモデルの学習のために使用される。

制御部１３は、画像処理装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。制御部１３は、切断部１３１及び出力制御部１３２を有する。

切断部１３１は、画像データセット１２１の各切出済画像を、長辺の双方を通過する直線で切断する。例えば、切断部１３１は、切出済画像の短辺と平行である直線で切出済画像を切断する。なお、切出済画像は長方形である他、正方形であってもよい。切断部１３１は、正方形の切出済画像の場合、切断部１３１は、例えば、長辺と短辺とを、画像の縦方向である第一の辺と、画像の横方向の第二の辺とに読み替えてもよい。また、切断部１３１は、直線に限らず、直線以外の線で切出済画像を切断してもよい。具体的には、切断部１３１は、被写体が撮影されている領域のエッジに応じて、例えば、複数の直線の組合せ、曲線、または、直線と曲線の組合せで切出済画像を切断してもよい。切出済画像の被写体がお辞儀をしている人間である場合、背中が曲がっていることから、直線の組合せ若しくは曲線での切断が好ましい。

出力制御部１３２は、切断部１３１によって切断された切断画像を、所望の被写体が撮像されているか否かの解析のために用いられる画像、例えば、学習用の画像として、通信部１１等を介して、学習装置２０に出力される。出力制御部１３２は、学習用の画像として、切断画像１２３を含む学習用画像１２２を学習装置２０に出力する。

入力部１４は、ユーザによる入力操作に対応して、画像処理装置１０に対する各種指示情報の入力を受け付けるデバイス装置である。例えば、入力部１４は、マウスやキーボード等の入力デバイスを用いて実現される。出力部１５は、例えば、液晶ディスプレイなどによって実現され、画像処理装置１０によって表示制御された画面が表示される。

［切断部］
次に、図３に示す切断部１３１の処理について説明する。図４～図７は、切断部１３１の処理内容を説明する図である。図４～図７の例では、切出済画像を２つの画像に切断する例について説明する。

切断部１３１の処理対象は、切出済画像である。例えば、図４に示す切出済画像Ｇ１を例に処理内容を説明する。切断部１３１は、切出済画像Ｇ１の短辺と平行である直線Ｌで切出済画像Ｇ１を切断する。この際、直線Ｌの位置は、切出済画像Ｇ１の長辺方向に沿って、上下に変更できる（図４の矢印Ｙ１１参照）。このため、切断部１３１は、直線Ｌの位置を長辺方向に沿って上下に変えながら、各切出済画像を切断することで、学習用画像のバリエーションを増やしている。

ここで、切断位置を変化させてバリエーションを増やす理由について説明する。一つ目の理由は、学習用の画像を増やすことにある。二つ目の理由は、撮像されている被写体の様々な部位ごとの画像を得るためである。均等に切断してしまうと、例えば、人間が被写体であれば、上半身と下半身の画像が多く取得できると想定される。この画像で学習を行ってしまうと、上半身と下半身とについて過学習されてしまい、解析対象の被写体が撮像されている角度が異なる場合や、そもそも回析対象の被写体が一部しか撮像されていなかった場合、つまり上半身、下半身、上半身及び下半身のいずれにも分類されないように撮像されていた場合に推定精度が低くなってしまうためである。このように、画像処理装置１０は、切断位置を変化させて切断した画像を学習用の画像にするという簡単な処理で、被写体の様々な部位の画像を得ることができる。この結果、学習装置２０は、画像処理装置１０によって生成された、被写体の様々な部位の画像も用いて学習を行うことで、被写体が撮影されている位置や部位によらず、正確な推定を行える場合を増やすことができる。

具体的には、切断部１３１は、切出済画像Ｇ１を上下に２等分する。その他に、切断部１３１は、図５に示すように、上部７０％の領域が残るように切出済画像Ｇ１を直線Ｌ１で切断して切出済画像Ｇ１の上部７０％の領域が残る画像（上７０％身画像Ｇ１１）を生成する。また、切断部１３１は、図６に示すように、下部４０％の領域が残るように直線Ｌ２で切出済画像Ｇ１を切断して、切出済画像Ｇ１の下部４０％の領域が残る画像（下４０％身画像Ｇ１２）を生成する。もちろん、切断部１３１は、図７に示すように、切出済画像Ｇ１を直線Ｌ１で切断して、上７０％身画像Ｇ１１と、切出済画像Ｇ１の下部３０％の領域が残る画像（下３０％身画像Ｇ１３）との２枚の切断画像を取得してもよい。

ここで、切断部１３１は、切出済画像に対する切断位置（直線Ｌ１の長辺方向の位置）を、確率分布を用いて分散させている。具体的には、切断部１３１は、画像データセット１２１の複数の切出済画像に対し、切出済画像の長辺の座標を確率変数とみなした確率分布にしたがって、複数の切出済画像に対する長辺の切断位置を分散させる。

例えば、切断部１３１が、標準正規分布を用いて切断処理を行う場合を例に説明する。この場合、切出済画像の長辺を、確率変数Ｘとして、長辺の中心を０とする。そして、処理対象の画像数を１００枚とする。そして、切断部１３１が、切出済画像を長辺長さの１０％刻みで切断する場合を例に説明する。

この際、切断部１３１は、標準正規分布にしたがい、画像データセット１２１から４０枚の切出済画像を取り出し、これらの４０枚の切出済画像を、それぞれ長辺の中心０を通る直線で切断して、上５０％身画像を得る。そして、切断部１３１は、標準正規分布にしたがい、画像データセット１２１から２４枚の切出済画像を取り出し、これらの２４枚の切出済画像を、下部４０％の領域が残る切断位置でそれぞれ切断して、下４０％身画像を得る。また、切断部１３１は、標準正規分布にしたがい、画像データセット１２１から５枚の切出済画像を取り出し、これらの５枚の切出済画像を、上部７０％の領域が残る切断位置でそれぞれ切断して、上７０％身画像を得る。

このように、切断部１３１は、標準正規分布にしたがい、切断対象となる切出済画像の枚数と、切出済画像に対する長辺方向の切断位置とを設定し、切出済画像を切断する。例えば、切出済画像の長辺の座標を確率変数とみなした確率分布にしたがい、切断対象となる切出済画像の枚数と、切出済画像の長辺方向の切断位置とをそれぞれ設定した条件が切断条件として設定されており、切断部１３１は、この切断条件にしたがって切出済画像の切断を行う。

なお、切断部１３１は、標準正規分布に限らず、分散をハイパーパラメータとして変更可能にした正規分布を適用して切出済画像に対する切断位置を設定してもよい。また、切断部１３１は、正規分布に限らず、一様分布やコーシー分布など、他の確率分布を適用して切出済画像に対する切断位置を設定してもよい。

上記のように、切断部１３１は、切断位置を分散させて切出済画像を２以上の画像に切断することによって、身体の一部しか写っていない画像を多種多様に生成し、学習用画像１２２として学習装置２０に出力する。このため、学習装置２０は、このような身体の一部しか写っていない多種多様の学習用画像１２２を用いてモデルの学習を実行できるため、モデルの解析精度を高めることができる。

［学習装置］
次に、学習装置２０の構成について説明する。図８は、学習装置２０の構成の一例を示すブロック図である。図８に示すように、学習装置２０は、通信部２１、記憶部２２、制御部２３、入力部２４及び出力部２５を有する。

通信部２１は、図３に示す通信部１１と同様の機能を有し、画像処理装置１０や解析装置３０との間の通信を行う。入力部２４は、図３に示す入力部１４と同様の機能を有し、例えば、マウスやキーボード等の入力デバイスを用いて実現される。出力部２５は、図３に示す出力部１５と同様の機能を有し、例えば、液晶ディスプレイなどによって実現される。

記憶部２２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子によって実現され、学習装置２０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部２２は、画像処理装置１０から送信された学習用画像１２２及びモデル２２１を有する。

モデル２２１は、切出済画像における複数の領域ごとに特徴量を抽出し、抽出した特徴量を用いて、画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行うアテンションモデルである。モデル２２１は、ディープニューラルネットワークによって構成される。モデル２２１は、複数のモジュールにおいて画像における複数の領域ごとに特徴量を抽出し、抽出した各特徴量を基に画像に所望の被写体が撮像されているか否かを解析する。モデル２２１は、複数のモジュールにおいて抽出した各特徴量を統合し、統合した特徴量を基に、画像に所望の被写体が撮像されているか否かを解析する。モデル２２１の各種パラメータは、後述する学習部２３２による学習用画像の学習によって調整される。

制御部２３は、図３に示す制御部１３と同様の機能を有し、学習装置２０全体を制御する。制御部２３は、各種のプログラムが動作することにより各種の処理部として機能する。制御部２３は、割当部２３１及び学習部２３２を有する。

割当部２３１は、学習用画像１２２の切断画像から、モデル２２１の各モジュールに対応する領域を設定し、各領域を、それぞれ対応するモジュールに割り当てる。なお、切断画像１２３には、元の切出済画像に付与されたオブジェクト情報が付与されており、また、元の切出済画像のどの位置で切断したかを示す切断情報１２４が対応付けられている。

学習部２３２は、切断画像からの各モジュールに対する領域の割り当てを学習する第１の学習と、各モジュールにおいて抽出された各特徴量に基づく切断画像の画像解析を学習する第２の学習と、を実行する。

［モデル］
まず、図９及び図１０を用いて、モデル２２１の概要及び学習処理の概要を説明する。図９及び図１０は、モデルの概要及び学習処理の概要を説明する図である。モデル２２１は、解析対象の画像から、オブジェクトの映っている部分を切り出す切出モジュール（図９において図示省略）と、切り出した部分の特徴量を抽出する特徴量抽出モジュールと、抽出した特徴量に基づき、切り出した部分の解析を行う解析モジュールとを有するものとする。

特徴量抽出モジュールは、画像から特徴量を抽出する複数のモジュールから構成される。このモジュールは、図９に示すように、例えば、HA-CNN等で用いられるlocal branchである。以下、特徴量抽出モジュールを構成するモジュールはlocal branchである場合を例に説明する。なお、この特徴量抽出モジュールは、global branchを含んでいてもよい。解析モジュールは、例えば、画像に写ったオブジェクトの分類を行う分類モジュールと、画像に写ったオブジェクトの属性を推定する属性推定モジュールとを有する。

この特徴量抽出モジュールの学習は、図９に示すように、解析モジュールから逆伝搬されてきた誤差を基に、特徴量抽出モジュールの重みパラメータを更新することにより行われる。学習部２３２は、分類モジュールおよび属性推定モジュールから逆伝搬されてきた誤差に基づき、特徴量抽出モジュールの各local branchの重みパラメータを更新する。これによって、学習部２３２は、特徴量抽出モジュールの各local branchを、解析モジュールによる解析精度を向上させるように最適化する。例えば、学習部２３２は、解析モジュールによる解析精度を向上させるよう、各local branchがそれぞれどの領域をピックアップすればよいかの学習を行い、各local branchが担当する領域を更新する。この学習を、特徴量抽出モジュールの間接的な反省（第２の学習）とする（図１０参照）。

また、学習部２３２は、モデル２２１の各local branchにそれぞれ割り当てられた領域を精度よくピックアップできるように、特徴量抽出モジュールの直接的な反省（第１の学習）も実行する。以降、直接的な反省について説明する。

まず、直接的な反省においては、割当部２３１が、特徴量抽出モジュールのlocal branchそれぞれに、各local branchが担当する（ピックアップすべき）領域を割り当てる。割当部２３１は、local branchごとに、各local branchが、オブジェクトを構成する領域群のうち、どの領域をピックアップし、特徴量を抽出するかを割り当てる。これらの領域は、オブジェクトの一部を含む。また、特徴量抽出モジュールにおいてピックアップする領域の数、種類は任意の数、種類でよい。例えば、オブジェクトが人物である場合、各領域は、頭部、胸部、腰部及び足部等を含む領域である。

例えば、割当部２３１は、図９の１本目のlocal branch４０１が担当する領域として、画像ｘのうち、人物の頭部の領域Ｒ４を割り当てる。割当部２３１は、２本目のlocal branchが担当する領域として、画像ｘのうち、人物の胸部の領域Ｒ２を割り当て、３本目のlocal branchが担当する領域として、画像ｘのうち、人物の腰部の領域Ｒ３を割り当てる。そして、割当部２３１は、図９のlocal branch４０２が担当する領域として、画像ｘのうち、人物の足部の領域Ｒ４を割り当てる。

学習部２３２は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習装置２０は、学習用画像の１枚１枚に対して各local branchがピックアップすべき領域が存在する領域（local branchがピックアップすべき領域）を示した情報を用いて、local branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習部２３２は、local branch４０１が担当する領域と、local branch４０１がピックアップした領域との間に誤差があれば、誤差を低減するようlocal branch４０１についてのパラメータ値の調整を行う。

このような調整を繰り返すことにより、local branchそれぞれは、自身に割り当てられた領域を正確にピックアップできるようになる。このような調整（学習）を、特徴量抽出モジュールの直接的な反省とする（図１０参照）。

このように、学習部２３２は、画像ごとに当該画像における領域を示す情報を用いて、local branchそれぞれが当該local branchに割り当てられた領域を精度よくピックアップできるようlocal branchそれぞれの学習（第１の学習）を行い、また、local branchそれぞれによりピックアップされた領域の特徴量を用いた画像解析の結果を用いて、当該画像解析の解析精度をより向上させるようlocal branchそれぞれの学習（第２の学習）を行う。

なお、学習部２３２が、各local branchの直接的反省（第１の学習）を行う場合の損失関数は、例えば、以下のようなものが考えられる。

例えば、各local branchがピックアップする領域の形状が矩形であり、ｉ本目のlocal branchが実際にピックアップした矩形領域の座標が（x₀,x₁,y₀,y₁）であり、ｉ本目のlocal branchがピックアップすべき矩形領域の座標が以下のように与えられた場合を考える。

この場合、学習部２３２は、ｉ本目のlocal branchに直接伝播する損失関数として、例えば、以下の式（１）を用いる。

学習部２３２は、直接的反省および間接的反省により得られた特徴量抽出モジュールのパラメータ値を用いて、記憶部２２内のモデル２２１を更新する。

［切断画像を用いた学習］
ここで、学習用画像１２２は、画像処理装置１０によって生成された切断画像１２３である。すなわち、学習部２３２は、身体の一部しか写っていない、多種多様な画像を用いて学習を行う。図１１～図１４は、切断画像を用いた学習を説明する図である。図１１～図１４では、４本のlocal branchに合わせて、４つの領域を画像からピックアップする場合を例に説明する。

まず、全身が写る画像Ｇ１（図１１参照）については、４分割した各領域のうち、１本目のlocal branchに画像Ｇ１の頭部の領域Ｒ１のデータが割り当てられ、２本目のlocal branchに画像Ｇ１の胸部の領域Ｒ２のデータが割り当てられ、３本目のlocal branchに画像Ｇ１の腰部の領域Ｒ３のデータが割り当てられ、４本目のlocal branchに画像Ｇ１の足部の領域Ｒ４のデータが割り当てられる。この場合には、各local branchにそれぞれ対応する領域のデータが欠けることなく割り当てられ、各local branchは、割り当てられたデータからそれぞれ特徴量を抽出する。

また、図１２を参照して、全身画像の２等分画像のうちの上半身画像Ｇ１２について説明する。この場合、割当部２３１は、上半身画像Ｇ１２を全身が写る画像Ｇ１と同じ大きさに引き伸ばし、２等分したうちの上部領域Ｒ１１のデータを１本目のlocal branchに割り当て、下部領域Ｒ２１のデータを２本目のlocal branchに割り当てる。これによって、１，２本目のlocal branchは、割り当てられた領域Ｒ１１，Ｒ２１の各データからそれぞれ特徴量を抽出する。これに対し、３，４本目のlocal branchについては、対応する領域に画像データがないため、３，４本目のlocal branchは、データ無しに該当する特徴量を出力する。

そして、図１３を参照して、上７０％身画像Ｇ１１について説明する。この場合、割当部２３１は、上７０％身画像Ｇ１１を全身が写る画像Ｇ１と同じ大きさに引き伸ばし、頭部領域Ｒ１２のデータを１本目のlocal branchに割り当て、胸部領域Ｒ２２のデータを２本目のlocal branchに割り当てる。これによって、１，２本目のlocal branchは、割り当てられた領域Ｒ１２，Ｒ２２の各データからそれぞれ特徴量を抽出する。

そして、割当部は、上７０％身画像Ｇ１１の腰部領域Ｒ３２のデータを３本目のlocal branchに割り当てる。ここで、腰部領域Ｒ３２は、腰部が写っている領域Ｒ３２－１には画像データがあるが、画像が切れている領域Ｒ３２－２には画像データがない。このため、３本目のlocal branchは、腰部領域Ｒ３２のうち、腰部が写っている領域Ｒ３２－１のデータから特徴量を抽出する。すなわち、３本目のlocal branchは、腰部領域Ｒ３２の一部のデータだけで特徴量を抽出する。また、４本目のlocal branchについては、対応する領域Ｒ４２に画像データがないため、４本目のlocal branchは、データ無しに該当する特徴量を出力する。

そして、図１４を参照して、下４０％身画像Ｇ１２について説明する。この場合、割当部２３１は、下４０％身画像Ｇ１２を全身が写る画像Ｇ１と同じ大きさに引き伸ばし、腰部領域Ｒ３３のデータを３本目のlocal branchに割り当て、足部領域Ｒ３４を４本目のlocal branchに割り当てる。これによって、３，４本目のlocal branchは、割り当てられた領域Ｒ３３，Ｒ４３の各データからそれぞれ特徴量を抽出する。ここで、腰部領域Ｒ３３は、腰部の下部が写っている領域Ｒ３３－２には画像データがあるが、画像が切れている領域Ｒ３３－１には画像データがない。このため、３本目のlocal branchは、腰部領域Ｒ３３のうち、腰部の下部が写っている領域Ｒ３３－２のデータから特徴量を抽出する。すなわち、３本目のlocal branchは、腰部領域Ｒ３３の一部のデータだけで特徴量を抽出する。また、１，２本目のlocal branchについては、対応する領域に画像データがないため、１，２本目のlocal branchは、データ無しに該当する特徴量を出力する。

このように、各local branchに割り当てられた領域のデータに応じて、各local branchから特徴量が出力される。

本実施の形態において採用するアテンションモデルは、画像から領域をピックアップし、各local branchに領域を割り当て、各local branchが各領域の画像データから特徴量を抽出する構成を有する。ここで、実際の解析時には、全身が写る画像ではなく、身体の一部しか写っていない画像を解析する場合が多い。このため、実際の解析においては、アテンションモデルの各local branchに割り当てられる領域の一部にしか画像データがない場合が多い。

従来では、使用していた学習用画像は、全身が写っている公開データセットの切出済画像を用いていたため、学習装置は、各local branchは、画像データで全てが占められた画像しか学習できなかった。したがって、従来の学習装置は、領域の一部にしか画像データないものについては学習できず、実際の解析の場面において、所望の精度を満たすことが難しい場合があった。

これに対し、本実施の形態では、上７０％身画像Ｇ１１、下４０％身画像Ｇ１２のように、画像処理装置１０が切断位置を変化させて切出済画像を切断して生成した、身体の一部の写り方に多種多様のバリエーションを持たせた画像を学習用画像として用いる。これによって、学習時には、この切断画像からピックアップされて各local branchに割り当てられる領域も、画像データの占め方が多様となり、各local branchは、画像データの占め方が多様である多数の領域の特徴量の抽出を学習することができる。

このように、学習装置２０は、これらの切断画像を学習用画像として用いることによって、身体の一部しか写っていない画像についても、十分に学習することができ、モデルの画像解析の精度を高めることできる。

［解析装置］
次に、解析装置３０の構成について説明する。図１５は、解析装置３０の構成の一例を示すブロック図である。図１５に示すように、解析装置３０は、通信部３１、記憶部３２、制御部３３、入力部３４及び出力部３５を有する。

通信部３１は、図３に示す通信部１１と同様の機能を有し、解析装置３０との間の通信を行う。入力部３４は、図３に示す入力部１４と同様の機能を有し、例えば、マウスやキーボード等の入力デバイスを用いて実現される。出力部３５は、図３に示す出力部１５と同様の機能を有し、例えば、液晶ディスプレイなどによって実現される。

記憶部３２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子によって実現され、解析装置３０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部３２は、解析対象である解析用画像３２１、学習装置２０による学習によってパラメータが最適化されたアテンションモデルであるモデル３２２、及び、画像に写ったオブジェクトの分類結果或いは画像に写ったオブジェクトの属性の推定結果を示す解析結果３２３を有する。

制御部３３は、図３に示す制御部１３と同様の機能を有し、解析装置３０全体を制御する。制御部３３は、各種のプログラムが動作することにより各種の処理部として機能する。制御部３３は、割当部３３１及び解析部３３２を有する。

割当部３３１は、解析用画像から、モデル３２２の各モジュールに、対応する領域を割り当てる。ピックアップする領域、及び、ピックアップした領域の各モジュールへの割り当ては、学習装置２０における学習によってそれぞれ最適化されている。

解析部３３２は、モデル３２２を用いて、各モジュールにおける領域ごとの特徴量抽出処理と、各モジュールが抽出した特徴量を用いて、解析用画像内の被写体が属する属性の推定や被写体と検出対象の被写体との照合を行う。

［画像処理の処理手順］
次に、画像処理装置１０による画像処理の処理手順について説明する。図１６は、実施の形態に係る画像処理の処理手順を示すフローチャートである。

図１６に示すように、画像処理装置１０では、まず、切断部１３１が切断条件を取得する（ステップＳ１１）。切断条件は、例えば、切出済画像の長辺の座標を確率変数とみなした確率分布にしたがい、切断対象となる切出済画像の枚数と、切出済画像の長辺方向の各切断位置とを設定した条件である。確率分布には、正規分布、一様分布、コーシー分布等がある。

切断部１３１は、画像データセット１２１から、切断条件にしたがって、設定された枚数の切出済画像を読み出して（ステップＳ１２）、切断条件において設定された切断位置で切断する（ステップＳ１３）。この際、切断部１３１は、切出済画像の短辺と平行な直線で切断を行う。

そして、切断対象の画像がある場合（ステップＳ１４：Ｙｅｓ）、切断部１３１は、切断条件にしたがって、次の切出済画像を読み出して（ステップＳ１２）、切断条件において設定された切断位置で切断する（ステップＳ１３）。また、切断対象の画像がない場合（ステップＳ１４：Ｎｏ）、切断部１３１は、各切断画像に、元の切出済画像に付与されたオブジェクト情報と切断情報とを付与し、学習用画像として出力する（ステップＳ１５）。

［学習処理の処理手順］
次に、学習装置２０による学習処理の処理手順について説明する。図１７は、実施の形態における学習処理の処理手順を示すフローチャートである。

図１７に示すように、学習装置２０では、画像処理装置１０によって生成された切断画像及び切断情報を学習用画像として読み出す（ステップＳ２１）。そして、学習装置２０では、割当部２３１が、学習対象のディープニューラルネットワークの特徴量抽出モジュールにおける各local branchへの領域の割り当てを行う（ステップＳ２２）。その後、学習部２３２は、特徴量抽出モジュールの各local branchの学習を行う（ステップＳ２３）。すなわち、学習部２３２は、解析モジュールから逆伝搬されてきた誤差を用いた各local branchの間接的反省に加え、切断画像を用いた各local branchの直接的反省を行う。

［実施の形態の効果］
アテンションモデルの学習用画像に、本実施の形態を適用した場合の解析精度と未適用の場合の解析精度を評価した。表１に、その評価結果を示す。

表１において、未適用は、画像データセット１２１の各切出済画像を、長辺の双方を通過する直線で２等分に切断した画像を学習用画像として学習したアテンションモデルを示す。また、適用は、切出済画像の長辺の座標を確率変数とみなした確率分布にしたがって、画像データセット１２１の各切出済画像に対する長辺の切断位置を分散させて切断した切断画像を学習用画像として学習したアテンションモデルを示す。また、Rank-1及びmAPは、照合分野で使用される指標である。Rank-1及びmAPは、いずれも０～１００％の値を取り、値が高いほど照合精度が良好であることを示す。

表１に示すように、Rank-1及びmAPのいずれの指標においても、本実施の形態を適用することによって、本実施の形態を定要しない場合と比して、アテンションモデルの照合精度が向上したことが分かる。

本実施の形態では、画像処理装置１０が、学習用画像として、切断位置を変化させて切出済画像を２以上の画像に切断した、身体の一部しか写っていない画像を多種多様に生成している。学習装置２０は、これらの切断画像を学習用画像として用いることによって、身体の一部しか写っていない画像についても、十分に学習することができ、アテンションモデルの画像解析の精度を高めることできる。このように、本実施の形態に係る画像処理装置１０は、画像解析の精度向上のために、解析のために用いられる適切な画像を提供することができる。

［実施形態のシステム構成について］
図１に示した画像処理装置１０、学習装置２０及び解析装置３０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、画像処理装置１０、学習装置２０及び解析装置３０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、画像処理装置１０、学習装置２０及び解析装置３０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、画像処理装置１０、学習装置２０及び解析装置３０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図１８は、プログラムが実行されることにより、画像処理装置１０、学習装置２０及び解析装置３０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、画像処理装置１０、学習装置２０及び解析装置３０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、画像処理装置１０、学習装置２０及び解析装置３０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例および運用技術等はすべて本発明の範疇に含まれる。

１解析システム
２学習システム
１０画像処理装置
１１，２１，３１通信部
１２，２２，３２記憶部
１３，２３，３３制御部
１４，２４，３４入力部
１５，２５，３５出力部
１２１画像データセット
１２２学習用画像
１２３切断画像
１２４切断情報
１３１切断部
１３２出力制御部
２２１，３２２モデル
２３１，３３１割当部
２３２学習部
３２１解析用画像
３２３解析結果
３３２解析部

Claims

所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置であって、
画像全体に対して、前記所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断する切断部と、
前記切断部によって切断された切断画像を前記所望の被写体が撮像されているか否かの解析のために用いられる画像として出力する出力部と、
を有し、
前記切断部は、複数の前記矩形画像に対し、前記矩形画像の長辺の座標を確率変数とみなした確率分布にしたがって、前記複数の矩形画像に対する長辺の切断位置を分散させることを特徴とする画像処理装置。
前記切断部は、前記矩形画像の短辺と平行である直線で前記矩形画像を切断することを特徴とする請求項１に記載の画像処理装置。
前記切断部は、前記矩形画像を２以上の画像に切断することを特徴とする請求項１または２に記載の画像処理装置。
複数のモジュールにおいて画像における複数の領域ごとに特徴量を抽出し、抽出した各特徴量を基に前記画像に前記所望の被写体が撮像されているか否かを解析する、ニューラルネットワークで構成されたモデルと、
前記切断画像から、各モジュールに対応する領域を設定し、各領域を、それぞれ対応するモジュールに割り当てる割当部と、
前記切断画像からの各モジュールに対する前記領域の割り当てを学習する第１の学習と、各モジュールにおいて抽出された各特徴量に基づく前記切断画像の画像解析を学習する第２の学習と、を実行する学習部と、
を有することを特徴とする請求項１～３のいずれか一つに記載の画像処理装置。
所望の被写体が撮像されているか否かの解析のために用いられる画像を処理する画像処理装置が実行する画像処理方法であって、
画像全体に対して、前記所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断する工程と、
切断された切断画像を前記所望の被写体が撮像されているか否かの解析のために用いられる画像として出力する工程と、
を含み、
前記切断する工程は、複数の前記矩形画像に対し、前記矩形画像の長辺の座標を確率変数とみなした確率分布にしたがって、前記複数の矩形画像に対する長辺の切断位置を分散させることを特徴とする画像処理方法。
画像全体に対して、所望の被写体が占める割合が、背景が占める割合より大きい矩形画像を、長辺の双方を通過する直線で切断するステップと、
切断された切断画像を前記所望の被写体が撮像されているか否かの解析のために用いられる画像として出力するステップと、
をコンピュータに実行させ、
前記切断するステップは、複数の前記矩形画像に対し、前記矩形画像の長辺の座標を確率変数とみなした確率分布にしたがって、前記複数の矩形画像に対する長辺の切断位置を分散させるための画像処理プログラム。