JP2020087165A

JP2020087165A - 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法

Info

Publication number: JP2020087165A
Application number: JP2018223405A
Authority: JP
Inventors: 祐輔樋田; Yusuke Toida
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-06-04
Anticipated expiration: 2038-11-29
Also published as: JP7220062B2; US11176455B2; US20200175366A1

Abstract

【課題】機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させる。【解決手段】コンピュータは、機械学習における学習対象物に関連する複数の画像各々と他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する（ステップ２０１）。そして、コンピュータは、複数の画像それぞれについて、注目領域以外の領域に対して不鮮明化処理を適用し（ステップ２０２）、不鮮明化処理が適用された複数の画像を含む学習データを生成する（ステップ２０３）。【選択図】図２

Description

本発明は、学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法に関する。

近年、様々な物体が写っている画像を自動的に分類する人工知能の分野において、分類の正解率を向上させる取り組みが行われている。例えば、人工知能のモデルとして、畳み込みニューラルネットワーク（Convolutional Neural Network，ＣＮＮ）が知られている（例えば、非特許文献１を参照）。

ＣＮＮを用いた分類処理では、入力された画像に対して畳み込み演算を行うことで、その画像から特徴量が抽出され、抽出された特徴量に基づいて、画像がいずれかのクラスに分類される。この場合、深層学習の層数又はネットワーク構造を変化させることで、特徴量の抽出精度を向上させ、分類の正解率を高めることができる。画像から抽出される特徴量としては、様々なものが知られている（例えば、非特許文献２〜非特許文献５を参照）。

クエリ画像に類似した画像を検索する画像検索方法、３次元形状モデルから特徴点を選択する特徴点選択システム、及び観察対象の三次元座標とカメラ画像の二次元座標とを対応付ける画像処理装置も知られている（例えば、特許文献１〜特許文献３を参照）。

特開２０１１−００８５０７号公報特開２０１０−２１８０５１号公報特開２０１４−０３８５６６号公報

A. Krizhevsky et al.,"ImageNet Classification with Deep Convolutional Neural Networks", NIPS'12 Proceedings of the 25th International Conference on Neural Information Processing Systems, Volume 1, Pages 1097-1105, December 2012. E. Rublee et al.,"ORB: an efficient alternative to SIFT or SURF", ICCV '11 Proceedings of the 2011 International Conference on Computer Vision, Pages 2564-2571, November 2011. P. F. Alcantarilla et al.,"KAZE Features", Computer Vision - ECCV 2012, Pages 214-227, 2012. D. G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, Volume 60 Issue 2, Pages 91-110, November 2004. H. Bay et al.,"Speeded-Up Robust Features (SURF)", Computer Vision and Image Understanding, Volume 110 Issue 3, Pages 346-359, June 2008.

画像分類の正解率を向上させるためには、画像に写っている人間等の分類対象物と、背景等の分類非対象物とから、分類精度を向上させる特徴量を抽出することが有効である。

しかしながら、ＣＮＮを用いて画像分類を行う場合、ＣＮＮの学習データとして与えられる画像の枚数によって、分類対象物の特徴量の抽出精度が低下することがある。

なお、かかる問題は、ＣＮＮを用いた画像分類に限らず、機械学習に基づく他のモデルを用いた画像処理においても生ずるものである。

１つの側面において、本発明は、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることを目的とする。

１つの案では、学習データ生成プログラムは、以下の処理をコンピュータに実行させる。
（１）コンピュータは、機械学習における学習対象物に関連する複数の画像各々と他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する。
（２）コンピュータは、複数の画像それぞれについて、注目領域以外の領域に対して不鮮明化処理を適用する。
（３）コンピュータは、不鮮明化処理が適用された複数の画像を含む学習データを生成する。

実施形態によれば、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることができる。

学習データ生成装置の機能的構成図である。学習データ生成処理のフローチャートである。画像分類システムの機能的構成図である。画像を示す図である。矩形領域の画像と頻度分布を示す図である。頻度値とフィルタ領域の関係を示す図である。フィルタ領域を示す図である。不鮮明化された画像を示す図である。学習データ生成処理の具体例を示すフローチャートである。画像分類処理のフローチャートである。分類結果を示す図である。情報処理装置の構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。
ＣＮＮを用いて分類を行う場合、大量の画像を学習データとして与えれば、それらの画像から分類対象物の特徴量のみを抽出するように、ＣＮＮに対する学習が行われる。大量の画像としては、例えば、数万枚以上の画像が想定される。

しかしながら、学習データとして少量の画像しか与えられない場合、学習結果に対する１枚の画像の影響が大きくなるため、分類に不要な分類非対象物の特徴量も抽出する学習が行われる可能性が高くなる。少量の画像としては、例えば、数十枚〜数百枚の画像が想定される。

一方、セグメンテーションによって、画像から分類対象物が写っている領域を切り出せば、分類非対象物の特徴量が抽出されることを防止できる。しかし、セグメンテーションを行うためには、教師あり学習のための正解データを作成する作業が発生する。

図１は、実施形態の学習データ生成装置の機能的構成例を示している。図１の学習データ生成装置１０１は、記憶部１１１、特定部１１２、不鮮明化部１１３、及び生成部１１４を含む。記憶部１１１は、機械学習における学習対象物に関連する複数の画像を記憶する。特定部１１２、不鮮明化部１１３、及び生成部１１４は、記憶部１１１が記憶する複数の画像を用いて、学習データ生成処理を行う。

図２は、図１の学習データ生成装置１０１が行う学習データ生成処理の例を示すフローチャートである。まず、特定部１１２は、記憶部１１１が記憶する各画像と他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する（ステップ２０１）。

次に、不鮮明化部１１３は、記憶部１１１が記憶する複数の画像それぞれについて、注目領域以外の領域に対して不鮮明化処理を適用する（ステップ２０２）。そして、生成部１１４は、不鮮明化処理が適用された複数の画像を含む学習データを生成する（ステップ２０３）。

このような学習データ生成装置１０１によれば、機械学習を用いた画像処理において、画像に写っている物体の判別精度を向上させることができる。

図３は、図１の学習データ生成装置１０１を含む画像分類システムの機能的構成例を示している。図３の画像分類システムは、学習データ生成装置１０１及び画像分類装置３０１を含む。

学習データ生成装置１０１は、記憶部１１１、特定部１１２、不鮮明化部１１３、生成部１１４、及び通信部３１１を含む。記憶部１１１は、機械学習における学習対象物と同じ種類の分類対象物が写っている複数の画像３２１を記憶する。例えば、学習対象物が人間である場合、各画像３２１は人間が写っている画像であり、学習対象物が自動車である場合、各画像３２１は自動車が写っている画像であり、学習対象物が船である場合、各画像３２１は船が写っている画像である。

画像３２１に写っている分類対象物の種類は、ユーザが目視によって判定してもよく、学習データ生成装置１０１が、画像３２１に付加されたタグに基づいて判定してもよい。

図４は、画像３２１の例を示している。この例では、学習対象物は船であり、図４の画像には、分類対象物である船とともに、分類非対象物である背景が写っている。例えば、領域４０２及び領域４０３内には山が含まれており、領域４０４内には建物が含まれており、領域４０５内には海が含まれている。

背景の影響を低減するために、船が写っている矩形領域４０１を境界ボックスによって切り取る処理を行っても、矩形領域４０１内には背景の一部が含まれる。このため、ＣＮＮに対する学習では、分類対象物の情報を学習する際に、その周辺に写っている分類非対象物の情報も含めて学習してしまう。

そこで、特定部１１２は、各画像３２１と他の画像３２１との間の画像マッチングを行って、各画像３２１内における特徴点の頻度分布３２２を求め、求めた頻度分布３２２を記憶部１１１に格納する。そして、特定部１１２は、頻度分布３２２に基づいて、各画像３２１内における注目領域を特定する。

学習対象物と同じ種類の対象物が写っている画像３２１を用いることで、画像間における画像マッチングを行うことが可能になり、画像間で特徴点同士を対応付けることができる。例えば、特定部１１２は、以下のような特徴量を用いて画像マッチングを行うことができる。
（Ｆ１）非特許文献２に記載されたＯＲＢ（Oriented FAST and Rotated BRIEF）
（Ｆ２）非特許文献３に記載されたKAZE特徴量
（Ｆ３）Accelerated-KAZE特徴量
（Ｆ４）非特許文献４に記載されたＳＩＦＴ（Scale-Invariant Feature Transform）特徴量
（Ｆ５）非特許文献５に記載されたＳＵＲＦ（Speeded-Up Robust Features）
頻度分布３２２は、処理対象の画像３２１内の複数の特徴点それぞれに対する頻度値を含み、各特徴点に対する頻度値は、その特徴点に対応付けられた、他のすべての画像３２１内の特徴点の個数を表す。特定部１１２は、他のすべての画像３２１内の特徴点を処理対象の画像３２１上に写像することで、頻度分布３２２を生成する。

図５は、船が写っている矩形領域の画像と頻度分布３２２の例を示している。図５（ａ）は、矩形領域の画像の例を示しており、図５（ｂ）は、図５（ａ）の矩形領域に対する頻度分布３２２の例を示している。図５（ｂ）の頻度分布３２２において、図５（ａ）の矩形領域から抽出された各特徴点の頻度値に応じて、その特徴点に対応する画素の色を変更することで、矩形領域内における頻度値の分布を表すことができる。

例えば、特定部１１２は、頻度分布３２２において、所定の閾値よりも大きな頻度値を有する特徴点の集合を、注目領域として抽出する。これにより、矩形領域内の分類対象物の形状を表す特徴点のみを注目領域として抽出することが可能になる。

不鮮明化部１１３は、各画像３２１の頻度分布３２２を参照して、注目領域以外の領域に含まれる複数の特徴点それぞれの頻度値を取得し、各特徴点の頻度値に応じて、その特徴点を含む所定領域を決定する。そして、不鮮明化部１１３は、決定した所定領域に対して不鮮明化処理を適用することで、注目領域以外の領域の画像を不鮮明化する。例えば、不鮮明化部１１３は、以下のような不鮮明化処理を適用することができる。
（Ｐ１）ぼかし処理
（Ｐ２）コントラスト変更処理
（Ｐ３）グレースケール化処理
（Ｐ４）セピア化処理
（Ｐ５）膨張処理
（Ｐ６）収縮処理
（Ｐ７）ジッター処理

ぼかし処理は、所定領域内の画素に対して、ぼかしフィルタによるフィルタ処理を適用して、それらの画素の画素値を統計値に置き換える処理である。例えば、ぼかしフィルタとしては、Blur_filter、Gaussian_blur、median_blur等を用いることができ、統計値としては、所定領域内の画素の画素値の平均値、中央値、最大値、最小値等を用いることができる。

コントラスト変更処理は、所定領域内の画素の明度、色相、輝度、彩度等を増減することで、情報量を低下させる処理であり、グレースケール化処理及びセピア化処理は、所定領域内の画素のＲＧＢ値の分散を狭めることで、情報量を低下させる処理である。

膨張処理は、特徴点の明度を、その特徴点を含む所定領域内における明度の最大値に置き換える処理であり、収縮処理は、特徴点の明度を、その特徴点を含む所定領域内における明度の最小値に置き換える処理である。膨張処理又は収縮処理によれば、特徴点の情報量を、周辺の状況に合わせて低下させることができる。ジッター処理は、所定領域内の画素の画素値をランダム化してノイズに変換することで、特徴量が抽出されにくくする処理である。

不鮮明化部１１３は、画像３２１に写っている分類非対象物に応じて、異なる不鮮明化処理を適用することもできる。例えば、背景に海面が含まれる場合、コントラストを低減する処理を適用することで、海面による光の反射を表す特徴量が抽出されにくくなる。背景に波が含まれる場合、膨張処理又は収縮処理を適用することで、波を表す特徴量が抽出されにくくなる。背景に山、建物等の物体が含まれる場合、ジッター処理を適用することで、物体の輪郭線がノイズに変換され、その物体を表す特徴量が抽出されにくくなる。

各画像３２１に対して適用される不鮮明化処理の種類は、ユーザが指定してもよく、不鮮明化部１１３が所定のアルゴリズムを用いて分類非対象物を特定し、特定した分類非対象物に応じて不鮮明化処理の種類を決定してもよい。

図６は、不鮮明化処理としてぼかし処理を用いた場合の各特徴点に対する頻度値とフィルタ領域の関係の例を示している。図６の横軸は、各特徴点の頻度値を表し、縦軸は、各特徴点を含む所定領域であるフィルタ領域の面積を表す。この例では、閾値Ｔ以下の頻度値を有する特徴点に対するフィルタ領域の面積は、頻度値が増加するにつれて段階的に減少している。なお、閾値Ｔよりも大きな頻度値を有する特徴点は注目領域として抽出されるため、その特徴点に対してフィルタ領域が設定されることはない。

頻度値が増加するにつれてフィルタ領域を狭くすることで、他の画像３２１とマッチした回数が多い特徴点ほど、不鮮明化される画像領域を限定することが可能になる。これにより、特徴点が分類対象物の形状を表す可能性が低いほど、不鮮明化の度合いを大きくし、特徴点が分類対象物の形状を表す可能性が高いほど、不鮮明化の度合いを小さくすることができる。

図７は、特徴点に対して設定された２段階のフィルタ領域の例を示している。特徴点７０１の頻度値が所定値以下である場合、特徴点７０１を中心とする５×５のフィルタ領域７０３が設定され、特徴点７０１の頻度値が所定値よりも大きい場合、特徴点７０１を中心とする３×３のフィルタ領域７０２が設定される。

図８は、図５（ａ）の矩形領域内の注目領域以外の領域に対してぼかし処理を適用することで不鮮明化された画像の例を示している。この場合、分類対象物である船の形状を表す特徴点以外の特徴点に対してフィルタ領域が設定され、そのフィルタ領域に対して、ぼかしフィルタによるフィルタ処理が適用される。これにより、船の背景が不鮮明化される。

このように、分類対象物の形状を表す特徴点のみからなる注目領域を特定して、それ以外の領域の画像を不鮮明化することで、分類非対象物の特徴量の影響を低下させることができる。したがって、不鮮明化された画像３２１を用いた学習処理において、分類非対象物が不活性化され、その特徴量が抽出されにくくなる。

生成部１１４は、不鮮明化処理が適用された複数の画像３２１を含む学習データ３２３を生成して、記憶部１１１に格納し、通信部３１１は、通信ネットワーク３０２を介して、学習データ３２３を画像分類装置３０１へ送信する。

画像分類装置３０１は、通信部３３１、ＣＮＮ３３２、及び記憶部３３３を含む。通信部３３１は、学習データ生成装置１０１から学習データ３２３を受信し、受信した学習データ３２３を記憶部３３３に格納する。

ＣＮＮ３３２は、画像を分類する分類器であり、入力された画像に写っている分類対象物の特徴に応じて、その画像を複数のクラスのいずれかに分類する。まず、ＣＮＮ３３２は、学習データ３２３を用いて学習処理を行うことで、ニューラルネットワークの各層におけるパラメータを決定する。

次に、ＣＮＮ３３２は、分類対象の画像３４１を入力データとして用いて分類処理を行い、画像３４１をいずれかのクラスに分類する。そして、ＣＮＮ３３２は、分類したクラスを示す分類結果３４２を生成して、記憶部３３３に格納する。

図３の画像分類システムによれば、学習データ３２３が少量の画像３２１しか含んでいない場合であっても、ＣＮＮ３３２は、それらの画像３２１に写っている分類対象物の特徴を効率よく学習することができる。したがって、画像３４１に写っている分類対象物の判別精度が向上し、分類の正解率を高めることが可能になる。

図９は、図３の学習データ生成装置１０１が行う学習データ生成処理の具体例を示すフローチャートである。この例では、記憶部１１１は、複数の画像３２１として、画像Ｘ１〜画像Ｘｎ（ｎは２以上の整数）を記憶する。

まず、特定部１１２は、処理対象の画像Ｘｉ（ｉ＝１〜ｎ）を示す制御変数ｉに１を設定し、比較対象の画像Ｘｊ（ｊ＝１〜ｎ）を示す制御変数ｊに１を設定して、ｉとｊを比較する（ステップ９０１）。ｉ＝ｊである場合（ステップ９０１，ＹＥＳ）、特定部１１２は、ｊを１だけインクリメントして、ステップ９０１の処理を繰り返す。

一方、ｉ≠ｊである場合（ステップ９０１，ＮＯ）、特定部１１２は、画像Ｘｉと画像Ｘｊとの画像マッチングを行って（ステップ９０２）、画像Ｘｉ内における頻度分布Ｙｉを計算する（ステップ９０３）。そして、特定部１１２は、ｊを１だけインクリメントして、ステップ９０１の処理を繰り返す。

ｊがｎに達した場合、特定部１１２は、頻度分布Ｙｉに基づいて、画像Ｘｉ内における注目領域を特定する。次に、不鮮明化部１１３は、画像Ｘｉの注目領域以外の領域に含まれる各特徴点に対して所定領域を設定し、設定した所定領域に対して不鮮明化処理を適用する（ステップ９０４）。そして、学習データ生成装置１０１は、ｉを１だけインクリメントし、ｊに１を設定して、ステップ９０１の処理を繰り返す。

ｉがｎに達した場合、生成部１１４は、不鮮明化処理が適用された画像Ｘ１〜画像Ｘｎを含む学習データ３２３を生成する。

図１０は、画像分類処理の例を示すフローチャートである。まず、ＣＮＮ３３２は、学習データ３２３を用いて学習処理を行う（ステップ１００１）。次に、ＣＮＮ３３２は、分類処理を行って画像３４１をいずれかのクラスに分類し、分類したクラスを示す分類結果３４２を生成する（ステップ１００２）。

図１１は、画像Ｘ１〜画像Ｘｎに対する分類結果の例を示している。この例では、ｎ＝５２８であり、５２８枚の画像がクラス０〜クラス１３のいずれかのクラスに分類される。

図１１（ａ）は、画像Ｘ１〜画像Ｘｎに対して不鮮明化処理を適用しない場合の分類結果の例を示している。図１１（ａ）のテーブルの１４個の列は、ＣＮＮ３３２によって各画像が分類されたクラスを表し、１４個の行は、各画像に対する正解のクラスを表す。したがって、ｋ行ｍ列（ｋ＝０〜１３，ｍ＝０〜１３）の数字は、クラスｋを正解とする画像のうち、クラスｍに分類された画像の枚数を表す。

例えば、クラス０を正解とする画像は３５枚であり、このうち２０枚の画像がクラス０に分類され、残りの１５枚の画像が他のクラスに分類されている。したがって、クラス０を正解とする画像の正解率は、２０／３５である。また、クラス１を正解とする画像は４０枚であり、このうち２３枚の画像がクラス１に分類され、残りの１７枚の画像が他のクラスに分類されている。したがって、クラス１を正解とする画像の正解率は、２３／４０である。そして、５２８枚の画像全体の正解率は、４３７／５２８＝８２．７６５２％である。

図１１（ｂ）は、クラス０又はクラス１を正解とする７５枚の画像に対してぼかし処理を適用した場合の分類結果の例を示している。この場合、クラス０を正解とする画像の正解率は２６／３５であり、クラス１を正解とする画像の正解率は３３／４０である。そして、５２８枚の画像全体の正解率は、４５３／５２８＝８５．７９５５％である。したがって、一部の画像に対してぼかし処理を適用することで、正解率が向上することが分かる。すべての画像に対してぼかし処理を適用すれば、正解率はさらに向上する。

図１の学習データ生成装置１０１の構成は一例に過ぎず、学習データ生成装置１０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。

図３の画像分類システムの構成は一例に過ぎず、学習データ生成装置１０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、学習データ生成装置１０１内にＣＮＮ３３２が設けられる場合は、通信部３１１及び画像分類装置３０１を省略することができる。

ＣＮＮ３３２の代わりに、順伝播型ニューラルネットワーク、再帰型ニューラルネットワーク等の他のニューラルネットワークを用いてもよく、機械学習に基づく他のモデルを用いてもよい。例えば、ＣＮＮ３３２の代わりに、決定木、相関ルール、遺伝的プログラミング、クラスタリング等のモデルを用いてもよい。

図２、図９、及び図１０のフローチャートは一例に過ぎず、学習データ生成装置１０１の構成又は条件に応じて一部の処理を省略又は変更してもよい。

図４及び図５（ａ）に示した画像３２１は一例に過ぎず、画像３２１は、学習対象物に応じて変化する。図５（ｂ）に示した頻度分布３２２は一例に過ぎず、頻度分布３２２は、画像３２１に応じて変化する。

図６及び図７に示したフィルタ領域は一例に過ぎず、別の大きさ及び別の形状のフィルタ領域を用いてもよい。図８に示した画像は一例に過ぎず、不鮮明化された画像は、不鮮明化処理の種類に応じて変化する。図１１に示した分類結果は一例に過ぎず、分類結果は、分類対象の画像と不鮮明化処理の種類に応じて変化する。

図１２は、図１及び図３の学習データ生成装置１０１、及び図３の画像分類装置３０１として用いられる情報処理装置（コンピュータ）の構成例を示している。図１２の情報処理装置は、ＣＰＵ（Central Processing Unit）１２０１、メモリ１２０２、入力装置１２０３、出力装置１２０４、補助記憶装置１２０５、媒体駆動装置１２０６、及びネットワーク接続装置１２０７を含む。これらの構成要素はバス１２０８により互いに接続されている。

メモリ１２０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ１２０２は、図１及び３の記憶部１１１、及び図３の記憶部３３３として用いることができる。

ＣＰＵ１２０１（プロセッサ）は、例えば、メモリ１２０２を利用してプログラムを実行することにより、図１及び図３の特定部１１２、不鮮明化部１１３、及び生成部１１４として動作する。ＣＰＵ１２０１は、メモリ１２０２を利用してプログラムを実行することにより、図３のＣＮＮ３３２としても動作する。

入力装置１２０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置１２０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。

補助記憶装置１２０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１２０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置１２０５にプログラム及びデータを格納しておき、それらをメモリ１２０２にロードして使用することができる。補助記憶装置１２０５は、図１及び３の記憶部１１１、及び図３の記憶部３３３として用いることができる。

媒体駆動装置１２０６は、可搬型記録媒体１２０９を駆動し、その記録内容にアクセスする。可搬型記録媒体１２０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１２０９は、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体１２０９にプログラム及びデータを格納しておき、それらをメモリ１２０２にロードして使用することができる。

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１２０２、補助記憶装置１２０５、又は可搬型記録媒体１２０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置１２０７は、図３の通信ネットワーク３０２に接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１２０７を介して受信し、それらをメモリ１２０２にロードして使用することができる。ネットワーク接続装置１２０７は、図３の通信部３１１又は通信部３３１として用いることができる。

なお、情報処理装置が図１２のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、オペレータ又はユーザと対話する必要がない場合は、入力装置１２０３及び出力装置１２０４を省略してもよい。可搬型記録媒体１２０９又は通信ネットワーク３０２を使用しない場合は、媒体駆動装置１２０６又はネットワーク接続装置１２０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図１２を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
処理をコンピュータに実行させるための学習データ生成プログラム。
（付記２）
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記１記載の学習データ生成プログラム。
（付記３）
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記１又は２記載の学習データ生成プログラム。
（付記４）
前記コンピュータは、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記３記載の学習データ生成プログラム。
（付記５）
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記１乃至４のいずれか１項に記載の学習データ生成プログラム。
（付記６）
機械学習における学習対象物に関連する複数の画像を記憶する記憶部と、
前記複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する特定部と、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用する不鮮明化部と、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する生成部と、
を備えることを特徴とする学習データ生成装置。
（付記７）
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記６記載の学習データ生成装置。
（付記８）
前記特定部は、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記６又は７記載の学習データ生成装置。
（付記９）
前記不鮮明化部は、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記８記載の学習データ生成装置。
（付記１０）
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記６乃至９のいずれか１項に記載の学習データ生成装置。
（付記１１）
コンピュータにより実行される学習データ生成方法であって、前記コンピュータが、
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
ことを特徴とする学習データ生成方法。
（付記１２）
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする付記１１記載の学習データ生成方法。
（付記１３）
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする付記１１又は１２記載の学習データ生成方法。
（付記１４）
前記コンピュータは、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする付記１３記載の学習データ生成方法。
（付記１５）
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする付記１１乃至１４のいずれか１項に記載の学習データ生成方法。

１０１学習データ生成装置
１１１、３３３記憶部
１１２特定部
１１３不鮮明化部
１１４生成部
３０１画像分類装置
３０２通信ネットワーク
３１１、３３１通信部
３２１、３４１画像
３２２頻度分布
３２３学習データ
３４２分類結果
４０１矩形領域
４０２〜４０５領域
７０１特徴点
７０２、７０３フィルタ領域
１２０１ＣＰＵ
１２０２メモリ
１２０３入力装置
１２０４出力装置
１２０５補助記憶装置
１２０６媒体駆動装置
１２０７ネットワーク接続装置
１２０８バス
１２０９可搬型記録媒体

Claims

機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
処理をコンピュータに実行させるための学習データ生成プログラム。
前記複数の画像各々は、前記学習対象物と同じ種類の対象物が写っている画像であることを特徴とする請求項１記載の学習データ生成プログラム。
前記コンピュータは、前記複数の画像各々と前記他の画像との間の画像マッチングを行って、各画像内における特徴点の頻度分布を求め、求めた頻度分布に基づいて、前記注目領域を特定することを特徴とする請求項１又は２記載の学習データ生成プログラム。
前記コンピュータは、前記注目領域以外の領域内の各特徴点の頻度値に応じて、各特徴点を含む所定領域を決定し、決定した所定領域に対して前記不鮮明化処理を適用することを特徴とする請求項３記載の学習データ生成プログラム。
前記不鮮明化処理は、ぼかし処理、コントラスト変更処理、グレースケール化処理、セピア化処理、膨張処理、収縮処理、又はジッター処理であることを特徴とする請求項１乃至４のいずれか１項に記載の学習データ生成プログラム。
機械学習における学習対象物に関連する複数の画像を記憶する記憶部と、
前記複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定する特定部と、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用する不鮮明化部と、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する生成部と、
を備えることを特徴とする学習データ生成装置。
コンピュータにより実行される学習データ生成方法であって、前記コンピュータが、
機械学習における学習対象物に関連する複数の画像各々と、前記複数の画像のうち他の画像との間の画像マッチングの結果に基づいて、各画像内における注目領域を特定し、
前記複数の画像それぞれについて、前記注目領域以外の領域に対して不鮮明化処理を適用し、
前記不鮮明化処理が適用された複数の画像を含む学習データを生成する、
ことを特徴とする学習データ生成方法。