JP2020057224A

JP2020057224A - 検出装置、識別器、コンピュータプログラム及び検出方法

Info

Publication number: JP2020057224A
Application number: JP2018187718A
Authority: JP
Inventors: 荘介下山; Sosuke Shimoyama
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2018-10-02
Filing date: 2018-10-02
Publication date: 2020-04-09
Anticipated expiration: 2038-10-02
Also published as: JP7163703B2

Abstract

【課題】マスク対象を容易に検出することができる検出装置、識別器、コンピュータプログラム及び検出方法を提供する。【解決手段】検出装置は、検出対象がマスクされていないマスク無し画像データを取得する取得部と、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器とを備え、取得部で取得したマスク無し画像データを識別器に入力し、識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。【選択図】図３

Description

本発明は、検出装置、識別器、コンピュータプログラム及び検出方法に関する。

インターネットを利用する各種サービスの普及によって、スマートフォンやカメラなどで撮影した画像がインターネットネット上にアップロードされ、不特定多数の人に公開されている。例えば、ＳＮＳ（ソーシャル・ネットワーク・サービス）や世界中の風景を見ることができるサービスでは様々な画像を閲覧することができる。しかし、このような画像の中に人物の顔が写っていると、個人情報保護等の観点から望ましくない。

特許文献１には、プライバシー保護のため、人物の顔にモザイク処理を行って顔が認識できないように画像処理を行う装置が開示されている。

特開２００９−２８４２３５号公報

しかし、人物が写った画像に対して顔の位置を特定してマスクする作業は煩雑であり、特に大量の画像をインターネット上にアップロードするような場合に、画像に顔などの対象が写っていると、顔の位置を特定した上で大量のマスク作業が発生する。このため、対象をマスクする作業の簡素化が望まれている。

本発明は、斯かる事情に鑑みてなされたものであり、マスク対象を容易に検出することができる検出装置、識別器、コンピュータプログラム及び検出方法を提供することを目的とする。

本発明の実施の形態に係る検出装置は、検出対象がマスクされていないマスク無し画像データを取得する取得部と、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器とを備え、前記取得部で取得したマスク無し画像データを前記識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。

本発明の実施の形態に係る識別器は、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成されている。

本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、検出対象がマスクされていないマスク無し画像データを取得する処理と、取得したマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する処理とを実行させる。

本発明の実施の形態に係る検出方法は、検出対象がマスクされていないマスク無し画像データを取得し、取得されたマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。

本発明によれば、マスク対象を容易に検出することができる。

本実施の形態の検出装置の構成の一例を示すブロック図である。学習データの一例を示す模式図である。マスク有り画像のマスクの一例を示す模式図である。学習モデルの構成の一例を示す模式図である。各畳み込み・プーリング層で行う畳み込み処理の一例を示す模式図である。各畳み込み・プーリング層で行うプーリング処理の一例を示す模式図である。最後段の畳み込み層及びグローバル平均プーリング層で行うグローバル平均プーリング処理の一例を示す模式図である。学習モデルに入力画像が入力された場合の一例を示す模式図である。本実施の形態の処理部による分布画像の生成方法の一例を示す模式図である。本実施の形態の検出装置による対象領域の特定及びマスク処理の一例を示す模式図である。学習モードでの検出装置の処理手順の一例を示すフローチャートである。検出モードでの検出装置の処理手順の一例を示すフローチャートである。

以下、本発明の実施の形態を図面に基づいて説明する。図１は本実施の形態の検出装置５０の構成の一例を示すブロック図である。検出装置５０は、装置全体を制御する制御部５１、取得部５２、記憶部５３、マスク処理部５４、処理部５５及び対象領域特定部５９を備える。また、処理部５５は、識別器としての学習モデル５６、学習処理部５７及びマップ生成部５８を備える。制御部５１は、ＣＰＵ、ＲＯＭ及びＲＡＭなどで構成することができる。

取得部５２は、人物の写った画像データを取得することができる。取得部５２は、例えば、外部の記憶デバイスに記憶された画像データを読み込む機能、あるいはインターネットなどの通信ネットワークを経由して画像データを受信する機能などを備えることができる。

取得部５２は、学習モデル５６を学習する学習モードにおいて学習データを取得することができるとともに、検出対象を検出する検出モードにおいて入力画像データを取得することができる。取得部５２は、取得した学習データ及び入力画像データを記憶部５３に記憶することができる。

本実施の形態の検出装置５０は、学習モード及び検出モードで動作することができる。まず、学習モードについて説明する。

図２は学習データの一例を示す模式図である。図２に示すように、学習データには、検出対象としての人物の顔がマスクされていないマスク無し画像データ（画像）及び顔がマスクされたマスク有り画像データ（画像）が含まれる。なお、取得部５２は、マスク無し画像データとともにマスクが無いことを示す教師ラベル（マスク無し）を取得することができ、マスク有り画像データとともにマスクが有ることを示す教師ラベル（マスク有り）を取得することができる。マスク無し画像とマスク有り画像との枚数が、学習モデル５６の学習段階に応じて適宜決定すればよい。

図２に示すように、マスク無し画像は、人物の顔はマスクされていない。一方、マスク有り画像は、顔の一部がマスクされ、人物を特定することができない。学習モデル５６を学習させるために、マスク有り画像を改めて作成することは必ずしも必要ではない。例えば、ＳＮＳ（ソーシャル・ネットワーク・サービス）や世界中の風景を見ることができるサービスなどにおいて、インターネットネット上にアップロードされ、不特定多数の人に公開されている画像の中で顔がマスクされている画像が利用可能であれば、そのような画像を利用することができる。また、同一の画像を二つ用意して、一方をマスク有りとし他方をマスク無いとする必要もない。すなわち、同じ画像を用いてマスク有とマスク無しとする必要はない。

図３はマスク有り画像のマスクの一例を示す模式図である。図３は人物が写っている画像の顔の付近を拡大したものである。本明細書において、検出対象は、人物の顔を含む。また、対象領域は、例えば、顔全体の領域のうち、マスクをする領域（マスク領域）である。なお、検出対象は、顔に限定されるものではなく、画像が公開される場合に、不特定多数の人に視認されることが好ましくないものであればよい。図中、破線は顔の輪郭、すなわち検出対象の輪郭である。また、輪郭内の模様が付された領域はマスク領域（対象領域）である。

すなわち、学習モデル５６は、顔の輪郭を除いた領域であって輪郭内の少なくとも半分以上の領域がマスクされたマスクあり画像データを用いて学習することができる。顔を視認することができない程度であって、かつマスク対象の領域をできるだけ少なくすることができるので、検出モードにおいて、学習モデル５６による検出精度を高めることができる。

また、学習モデル５６は、顔が単色（例えば、赤色、灰色など）でマスクされたマスクあり画像データを用いて学習することができる。マスクを単色にすることにより、検出モードにおいて、学習モデル５６による検出精度を高めることができる。

次に、処理部５５について説明する。処理部５５は、例えば、ＣＰＵ（例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど）、ＧＰＵ（Graphics Processing Units）、ＤＳＰ（Digital Signal Processors）、ＦＰＧＡ（Field-Programmable Gate Arrays）などのハードウェアを組み合わせることによって構成することができる。また、量子プロセッサを組み合わせることもできる。

学習モデル５６は、多層のニューラルネットワーク（深層学習）を用いることができ、例えば、畳み込みニューラルネットワーク（Convolutional Neural Network）を用いることができるが、他の機械学習を用いてもよい。学習モデル５６は、学習処理部５７によって学習することにより、顔がマスクされていないマスク無し画像が入力された場合には、マスク無しであることを出力し、また、顔がマスクされたマスク有り画像が入力された場合には、マスク有りであることを出力する。

図４は学習モデル５６の構成の一例を示す模式図である。図４に示す学習モデル５６は、画像用の畳み込みニューラルネットワークであり、畳み込み・プーリング層５６１、畳み込み・プーリング層５６２、畳み込み・プーリング層５６３、畳み込み層５６４、グローバル平均プーリング層５６５、及び出力層５６６が、この順に接続されている。最後の畳み込み層５６４は、いわゆるプーリング層を含まず、代わりにグローバル平均プーリング層５６５が接続されている。なお、畳み込み・プーリング層の数は便宜上のものであり、図４に示す数に限定されない。また、便宜上、入力層、活性化関数の層は省略している。１段目の畳み込み・プーリング層５６１には、学習データとして、マスク有り画像及びマスク無し画像が入力される。出力層５６６は、例えば、２つの出力ノードを有し、マスク有りを示す値及びマスク無しを示す値を出力することができる。学習モデル５６の構成は、図４に示す構成に限定されるものではなく、他の畳み込みニューラルネットワークの構成を用いることができる。

学習処理部５７は、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして学習モデル５６を学習する。すなわち、マスク有り画像データとマスク有りの教師ラベル、及びマスク無し画像データとマスク無しの教師ラベルをセット（ミニバッチ）として学習モデル５６に入力して学習モデル５６を学習することができる。学習モデル５６は、マスク無し画像データだけでなく、マスク有り画像データを用いて学習する弱教師あり学習によって、マスク対象のマスクの有無を検出できるように学習される。

図５は各畳み込み・プーリング層で行う畳み込み処理の一例を示す模式図である。畳み込み処理での入出力データは、特徴マップとも称され、畳み込み処理での入力データを入力特徴マップ、畳み込み処理での出力データを出力特徴マップともいう。１段目の畳み込み処理での入力特徴マップは、入力された画像である。畳み込み処理（「畳み込み演算」ともいう）は、畳み込みフィルタ（「フィルタ」ともいう）によるフィルタ演算である。

図５に示すように、便宜上、入力特徴マップを８×８ピクセルとする。また、フィルタの大きさを３×３ピクセルとする。畳み込み演算では、入力特徴マップに対して、フィルタのウィンドウを一定の間隔でスライドさせながら、フィルタの要素と入力特徴マップの対応する要素を乗算し、その和を求め、求めた和を出力特徴マップの対応するピクセルに格納する。図５の例では、入力特徴マップのフィルタＦ１に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ１に格納される。また、入力特徴マップのフィルタＦ２に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ２に格納される。同様に、入力特徴マップのフィルタＦ３に対応する領域Ｓの演算結果が出力特徴マップのピクセルＳ３に格納される。フィルタを１ピクセルずつ移動させて同様の演算を行うことにより、出力特徴マップは、６×６ピクセルの大きさとなる。ここで、３つのフィルタＦ１、Ｆ２、Ｆ３を用いることにより、３つの出力特徴マップ（チャネル数が３ともいう）が得られる。

学習モデル５６の学習では、フィルタに関するパラメータとして、例えば、フィルタの要素の値、フィルタの数（図５の例では、３）、フィルタの大きさ（図５の例では、３×３）、フィルタの移動幅（「スライド」ともいう、図５の例では、１ピクセル）、入力特徴マップの周囲（端の領域）を０で埋めるパディングなどを最適化する。畳み込み処理により、画像の空間的な特徴を抽出することができる。

図６は各畳み込み・プーリング層で行うプーリング処理の一例を示す模式図である。プーリング処理は、畳み込み処理によって得られた二次元特徴マップの大きさを縮小する処理を行う。具体的には、画像の局所領域を一つの要素に集約する処理を行う。例えば、図６に示すように、６×６ピクセルの特徴マップ（出力特徴マップ）において、２×２の局所領域（ウィンドウＷ）を、各要素のうちの最大値である「４」に集約している。なお、ウィンドウＷのスライドは、ウィンドウＷの大きさに等しく、図６の例では、２ピクセルずつスライドするので、６×６ピクセルの特徴マップは、３×３ピクセルに縮小される。プーリング層により、画像内で、例えば、特徴部分が多少変形又は変位していても、その変形又は変位による差異を吸収して特徴部分を抽出することができる。

図７は最後段の畳み込み層５６４及びグローバル平均プーリング層５６５で行うグローバル平均プーリング処理の一例を示す模式図である。便宜上、畳み込み層５６４の出力特徴マップを、Ｃ１、Ｃ２、Ｃ３、…ＣＮのＮ（例えば、１６、３２など）チャネルとし、各チャネルはｍ×ｍ（例えば、入力画像と同じサイズでもよく、入力画像よりも小さいサイズでもよい）の画素で構成されているとする。なお、チャネル数は、１６又は３２に限定されるものではない。また、グローバル平均プーリング層５６５は、Ｎ個の１次元配列とする。グローバル平均プーリング処理は、チャネルＣ１の出力特徴マップのｍ×ｍの画素の平均を算出し、算出した平均をＣ１の平均として、グローバル平均プーリング層５６５の１番目の配列に入れる。また、グローバル平均プーリング処理は、チャネルＣ２の出力特徴マップのｍ×ｍの画素の平均を算出し、算出した平均をＣ２の平均として、グローバル平均プーリング層５６５の２番目の配列に入れる。以下、同様の処理をチャネルＣＮまで行う。

上述のように、グローバル平均プーリング処理は、各出力特徴マップを平均プーリングして出力層５６６へ伝える。図４に示すように、グローバル平均プーリング層５６５のＮ個の１次元配列は、それぞれ重み付け係数（Ｗ１、Ｗ２、…、ＷＮで表す）によって重み付けされて出力層５６６に伝えられる。学習モデル５６を学習することにより、最適な重み付け係数（Ｗ１、Ｗ２、…、ＷＮ）が求められる。なお、出力層５６６は、２つの出力ノードを有し、マスク有りを示す値及びマスク無しを示す値を出力することができるので、重み付け係数（Ｗ１、Ｗ２、…、ＷＮで表す）は、２つの出力ノードそれぞれについて存在する。

図７から分かるように、仮に、学習の結果、重み付け数Ｗ１が大きく、他の重み係数が小さいとすると、マスクの有無の検出には、畳み込み層５６４の各出力特徴マップのうち、チャネルＣ１の出力特徴マップが最も寄与していると考えることができる。本明細書では、マスクの有無の検出に関係するという意味で、畳み込み層５６４の出力特徴マップを学習モデル５６の識別結果とも称する。

次に、本実施の形態の検出装置５０の検出モードについて説明する。

図８は学習モデル５６に入力画像が入力された場合の一例を示す模式図である。検出モードでは、学習モデル５６は学習済みであるとする。入力画像は、顔がマスクされていないマスク無し画像である。また、学習モデル５６は、学習済みであるので、グローバル平均プーリング層５６５の各配列と出力層との間の重み付け係数は、例えば、Ｗ１、Ｗ２、…、ＷＮとして最適化されている。なお、この場合、出力層５６６は、マスク無しを示す値を出力することができる。また、学習モデル５６は、マスク対象がマスクされているか否かを検出することができる。これにより、マスク対象を容易に検出することができる。なお、出力層５６６は、マスク有りを示す値を出力することもできる。

図９は本実施の形態の処理部５５による分布画像の生成方法の一例を示す模式図である。マップ生成部５８は、生成部としての機能を有し、学習モデル５６のニューラルネットワークにより得られた顕著性に基づいて検出対象の可能性の度合いの分布を示す分布画像データを生成する。顕著性は、マスクの有無の検出するための結果であり、畳み込み層５６４の出力特徴マップである。

学習モデル５６は学習済みであるので、グローバル平均プーリング層５６５の各配列と出力層との間の重み付け係数（例えば、Ｗ１、Ｗ２、…、ＷＮ）は最適化されている。すなわち、マスク無し画像が学習モデル５６に入力され、学習モデル５６は、「マスク無し」という結果を出力することができるように、重み付け係数（例えば、Ｗ１、Ｗ２、…、ＷＮ）は最適化されている。畳み込み層５６４の各出力特徴マップそれぞれが、「マスク無し」の検出にどの程度寄与しているかが、重み係数（Ｗ１、Ｗ２、…、ＷＮ）によって決定されている。そこで、この重み係数Ｗ１、Ｗ２、…、ＷＮを、畳み込み層５６４の各出力特徴マップに投影することにより、画像領域の重要性（すなわち、検出対象の可能性の度合い）を識別することが可能となる。

具体的には、図９に示すように、チャネルＣ１の出力特徴マップの各画素にチャネルＣ１に対応する重み付け数Ｗ１を乗算し、チャネルＣ２の出力特徴マップの各画素にチャネルＣ２に対応する重み付け数Ｗ２を乗算し、以降同様にして、チャネルＣＮの出力特徴マップの各画素にチャネルＣＮに対応する重み付け数ＷＮを乗算し、重み付け係数が乗算された各出力特徴マップを合計して分布画像を生成する。

図９では、便宜上、各チャネルの出力特徴マップ及び分布画像において、画像領域の重要性（検出対象である可能性の度合い）を異なる模様を付して表している。分布画像データによって表示される分布画像は、検出対象の可能性の高さに応じて表示態様（例えば、色又は濃度など）を変えることができる。例えば、検出対象である可能性が高い領域は赤味の色とし、可能性が低い領域は青味の色とすることにより可視化することができる。

図１０は本実施の形態の検出装置５０による対象領域の特定及びマスク処理の一例を示す模式図である。図１０Ａは対象領域の特定方法の一例を示し、図１０Ｂはマスク処理の一例を示す。図１０Ａに示すように、対象領域特定部５９は、特定部としての機能を有し、マップ生成部５８で生成した分布画像及び所定の閾値に基づいて検出対象の対象領域を特定する。例えば、分布画像の各画素の画素値によって検出対象の可能性の度合いを表す場合には、画素値が所定の閾値以上である場合、可能性の度合いが大きいとして、可能性の度合いが高い領域を対象領域として特定することができる。なお、対象領域の形状は、三角形、四角形又は多角形でもよく、円形状や楕円形状などの任意の形状とすることができる。これにより、マスクをする領域を自動的に特定することができる。

また、図１０Ｂに示すように、マスク処理部５４は、対象領域特定部５９で特定した対象領域に基づいて、取得部５２で取得したマスク無し画像データ（入力画像）に対してマスク処理を行う。具体的には、入力画像（マスク無し画像）とマスク処理結果（マスク領域、すなわち塗りつぶした領域）とを重ね合わせる。マスク処理は、対象領域が視認できないように対象領域を塗りつぶす処理であれば、適宜の方法を用いることができる。これにより、マスクされていない画像のマスク対象をマスクすることができる。

これにより、人物の顔が写った画像に対して、人物が特定されない程度に顔を塗りつぶす（マスクする）ことができるので、そのような画像を公開する場合でも個人情報の保護を図ることができる。

図１１は学習モードでの検出装置５０の処理手順の一例を示すフローチャートである。以下では、便宜上、処理の主体を制御部５１として説明する。制御部５１は、マスク有り画像データ及びマスク有りの教師ラベルを学習モデル５６に入力し（Ｓ１１）、マスク無し画像データ及びマスク無しの教師ラベルを学習モデル５６に入力し（Ｓ１２）、学習モデル５６の学習を行う（Ｓ１３）。すなわち、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして学習モデル５６に入力し、異なる教師ラベルを含めたセット（ミニバッチ）で学習モデル５６を学習させる。

制御部５１は、学習データの有無を判定し（Ｓ１４）、学習データがある場合（Ｓ１４でＹＥＳ）、ステップＳ１１以降の処理を行う。学習データがない場合（Ｓ１４でＮＯ）、制御部５１は、処理を終了する。

図１２は検出モードでの検出装置５０の処理手順の一例を示すフローチャートである。制御部５１は、マスク無し画像データを学習モデル５６に入力する（Ｓ２１）。なお、マスク無し画像データは、マスク無の動画データでもよい。マスク無し画像データは、記憶部５３に記憶することができる。制御部５１は、畳み込み層５６４の出力特徴マップを取得する（Ｓ２２）。制御部５１は、取得した各出力特徴マップに出力層５６６の重み（具体的には、グローバル平均プーリング層５６５の各配列から出力層５６６への重み係数Ｗ１、Ｗ２、…、ＷＮ）を付与して分布画像データ（マップデータ）を生成する（Ｓ２３）。

制御部５１は、生成した分布画像データ及び所定の閾値を用いて対象領域を特定する（Ｓ２４）。制御部５１は、特定した対象領域に対してマスク処理を行い、入力画像データ（ステップＳ２１で入力したマスク無し画像データ）にマスク処理結果を重ね合わせてマスク有り画像を生成して出力し（Ｓ２５）、処理を終了する。

本実施の形態の制御部５１、処理部５５、対象領域特定部５９及びマスク処理部５４は、ＣＰＵ（プロセッサ）、ＧＰＵ、ＲＡＭ（メモリ）などを備えた汎用コンピュータを用いて実現することもできる。すなわち、図１１及び図１２に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたＲＡＭ（メモリ）にロードし、コンピュータプログラムをＣＰＵ（プロセッサ）で実行することにより、コンピュータ上で制御部５１、処理部５５、対象領域特定部５９及びマスク処理部５４を実現することができる。コンピュータプログラムは記録媒体に記録され流通されてもよく、あるいは、ネットワークを介して、検出装置５０にインストールされてもよい。

本実施の形態によれば、人物の顔を塗りつぶしたマスク有り画像を生成するような工程において、顔位置のアノテーション作業なしに自動的に顔をマスクすることができる。

本実施の形態に係る検出装置は、検出対象がマスクされていないマスク無し画像データを取得する取得部と、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器とを備え、前記取得部で取得したマスク無し画像データを前記識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。

本実施の形態に係る識別器は、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成されている。

本実施の形態に係るコンピュータプログラムは、コンピュータに、検出対象がマスクされていないマスク無し画像データを取得する処理と、取得したマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する処理とを実行させる。

本実施の形態に係る検出方法は、検出対象がマスクされていないマスク無し画像データを取得し、取得されたマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。

取得部は、検出対象がマスクされていないマスク無し画像データを取得する。

識別器は、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成されている。検出対象は、マスクする対象（マスク対象）のマスクの有無である。識別器は、例えば、マスク有り画像データとマスク有りの教師ラベル、及びマスク無し画像データとマスク無しの教師ラベルをセット（ミニバッチ）として識別器に入力して学習することができる。すなわち、識別器は、マスク無し画像データだけでなく、マスク有り画像データを用いて学習する弱教師あり学習によって、マスク対象のマスクの有無を検出できるように学習される。

取得部で取得したマスク無し画像データを識別器に入力し、識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する。識別器は、弱教師あり学習によって学習済みであるので、マスク対象がマスクされているか否かを検出することができる。これにより、マスク対象を容易に検出することができる。

本実施の形態に係る検出装置は、前記ニューラルネットワークにより得られた顕著性に基づいて検出対象の可能性の度合いの分布を示す分布画像データを生成する生成部と、前記生成部で生成した分布画像データ及び所定の閾値に基づいて検出対象の対象領域を特定する特定部とを備える。

生成部は、ニューラルネットワークにより得られた顕著性に基づいて検出対象の可能性の度合いの分布を示す分布画像データを生成する。識別器は学習済みであるので、マスク無し画像データが識別器に入力されることにより、識別器のニューラルネットワークは顕著性を出力することができる。顕著性に基づいて、分布画像データによって表示される分布画像は、検出対象の可能性の高さに応じて表示態様（例えば、色又は濃度など）を変えることができる。例えば、検出対象である可能性が高い領域は赤味の色とし、可能性が低い領域は青味の色とすることにより可視化することができる。

特定部は、生成部で生成した分布画像データ及び所定の閾値に基づいて検出対象の対象領域を特定する。例えば、画素値によって検出対象の可能性の度合いを表す場合には、画素値が所定の閾値以上である場合、可能性の度合いが大きいとして、可能性の度合いが高い領域を対象領域として特定することができる。なお、対象領域の形状は三角形、四角形又は多角形でもよく、円形状や楕円形状などの任意の形状とすることができる。これにより、マスクをする領域を自動的に特定することができる。

本実施の形態に係る検出装置は、前記特定部で特定した対象領域に基づいて、前記取得部で取得したマスク無し画像データ対してマスク処理を行うマスク処理部を備える。

マスク処理部は、特定部で特定した対象領域に基づいて、取得部で取得したマスク無し画像データに対してマスク処理を行う。マスク処理は、対象領域が視認できないように対象領域を塗りつぶす処理であれば、適宜の方法を用いることができる。これにより、マスクされていない画像のマスク対象をマスクすることができる。

本実施の形態に係る検出装置において、前記識別器は、検出対象の輪郭を除いた領域であって前記輪郭内の少なくとも半分以上の領域がマスクされたマスクあり画像データを用いて生成されている。

識別器は、検出対象の輪郭を除いた領域であって輪郭内の少なくとも半分以上の領域がマスクされたマスクあり画像データを用いて生成されている。検出対象を視認することができない程度であって、かつマスク対象の領域をできるだけ少なくすることができるので、検出精度を高めることができる。

本実施の形態に係る検出装置において、前記識別器は、検出対象が単色でマスクされたマスクあり画像データを用いて生成されている。

識別器は、検出対象が単色でマスクされたマスクあり画像データを用いて生成されている。マスクを単色にすることにより、検出精度を高めることができる。

本実施の形態に係る検出装置において、前記検出対象は、顔である。

検出対象は顔である。これにより、人物の顔が写った画像に対して、人物が特定されない程度に顔を塗りつぶす（マスクする）ことができるので、そのような画像を公開する場合でも個人情報の保護を図ることができる。

５０検出装置
５１制御部
５２取得部
５３記憶部
５４マスク処理部
５５処理部
５６学習モデル
５６１、５６２、５６３畳み込み・プーリング層
５６４畳み込み層
５６５グローバル平均プーリング層
５６６出力層
５７学習処理部
５８マップ生成部
５９対象領域特定部

Claims

検出対象がマスクされていないマスク無し画像データを取得する取得部と、
マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器と
を備え、
前記取得部で取得したマスク無し画像データを前記識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する検出装置。
前記ニューラルネットワークにより得られた顕著性に基づいて検出対象の可能性の度合いの分布を示す分布画像データを生成する生成部と、
前記生成部で生成した分布画像データ及び所定の閾値に基づいて検出対象の対象領域を特定する特定部と
を備える請求項１に記載の検出装置。
前記特定部で特定した対象領域に基づいて、前記取得部で取得したマスク無し画像データ対してマスク処理を行うマスク処理部を備える請求項２に記載の検出装置。
前記識別器は、
検出対象の輪郭を除いた領域であって前記輪郭内の少なくとも半分以上の領域がマスクされたマスクあり画像データを用いて生成されている請求項１から請求項３のいずれか一項に記載の検出装置。
前記識別器は、
検出対象が単色でマスクされたマスクあり画像データを用いて生成されている請求項１から請求項４のいずれか一項に記載の検出装置。
前記検出対象は、顔である請求項１から請求項５のいずれか一項に記載の検出装置。
マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成されている識別器。
コンピュータに、
検出対象がマスクされていないマスク無し画像データを取得する処理と、
取得したマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する処理と
を実行させるコンピュータプログラム。
検出対象がマスクされていないマスク無し画像データを取得し、
取得されたマスク無し画像データを、マスクの有無を示す教師ラベルをそれぞれ付与した検出対象がマスクされたマスク有り画像データと検出対象がマスクされていないマスク無し画像データとを学習データとして生成された識別器に入力し、前記識別器のニューラルネットワークにより得られた顕著性に基づいて検出対象を検出する検出方法。