JP7459713B2 - 選別プログラム、選別方法、および情報処理装置 - Google Patents

選別プログラム、選別方法、および情報処理装置 Download PDF

Info

Publication number
JP7459713B2
JP7459713B2 JP2020129937A JP2020129937A JP7459713B2 JP 7459713 B2 JP7459713 B2 JP 7459713B2 JP 2020129937 A JP2020129937 A JP 2020129937A JP 2020129937 A JP2020129937 A JP 2020129937A JP 7459713 B2 JP7459713 B2 JP 7459713B2
Authority
JP
Japan
Prior art keywords
image
occlusion
images
degree
upper limit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020129937A
Other languages
English (en)
Other versions
JP2022026456A (ja
Inventor
浩之 住田
剛 渡邉
順 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020129937A priority Critical patent/JP7459713B2/ja
Publication of JP2022026456A publication Critical patent/JP2022026456A/ja
Application granted granted Critical
Publication of JP7459713B2 publication Critical patent/JP7459713B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、選別プログラム、選別方法、および情報処理装置に関する。
近年、様々な分野において画像からの対象物の認識に、機械学習により得られた認識モデルが利用されている。高精度な認識モデルを生成するためには、正解がラベルされている教師データを大量に用意することが望ましい。一方で、大量の教師データを用意するには手間がかかる。また、状況によっては大量の教師データを用意することが難しいこともある。
教師データを拡充するための技術として、データ拡張が知られている。なお、データ拡張は、例えば、データ・オーギュメンテーション(data augmentation)と呼ばれることもある。データ拡張では、例えば、正解がラベルされている教師データの画像に対して様々な摂動を与えて新たな教師データを生成する。それにより、教師データの数を水増しすることができる。画像に与える摂動は、例えば、平行移動、拡大縮小、回転、明るさの変更、コントラストの変更、ノイズの付与などが挙げられる。
また、データ拡張に関連する技術が知られている(例えば、特許文献1から特許文献3)。
特開2019-032821号公報 特表2018-503161号公報 特開2020-034998号公報
データ拡張の手法として、背景となる背景画像の上に、認識モデルによる認識対象とする要素が写る要素画像をランダムに少なくとも1つ配置して、教師データの画像を作成することも考えられる。また、配置する際に要素画像を適度に重ね合わせて対象要素の一部が隠された画像を生成することで、ロバストな認識モデルの作成に適した教師データの画像を作成することができる。一方で、要素画像の重なりが過度になると、下側に配置されている要素画像が前面に配置された要素画像により遮蔽されてあまり見えなくなるため、画像から対象物を検出することが困難になることがある。例えば、そのような画像を用いて無理に機械学習を行うと、機械学習で得られた認識モデルの検出精度が低下することがある。そのため、例えば、作成した教師データの画像が、機械学習に適しているかを人手で判断して、不適切な画像を排除する作業が行われることがある。しかしながら、人手での判断には、ばらつきがあるため、結果として作成される教師データの品質が低下することがある。
1つの側面では、本発明は、モデルの機械学習に適した画像を選別する技術を提供することを目的とする。
本発明の一つの態様の情報処理装置は、対象要素が写る複数の要素画像を背景画像の上に配置して生成された合成画像が、要素画像の重なりを含む場合、重なりにおいて背面に配置されている第1の要素画像が、重なりにおいて前面に配置されている第2の要素画像によって遮蔽される度合いを表す遮蔽度合いを特定する特定部と、遮蔽度合いが、第1の要素画像の複雑さに応じて特定される上限値以下の場合、対象要素を検出する認識モデルを生成するための機械学習で用いる教師データとして合成画像を選別する選別部と、を含む。
モデルの機械学習に適した画像を選別することができる。
例示的な合成画像の作成を説明する図である。 例示的な合成画像の作成を示す図である。 実施形態に係る情報処理装置のブロック構成を例示する図である。 実施形態に係る要素画像の複雑さに基づく分類について例示する図である。 実施形態に係るクラス分類のための学習済みモデルの生成処理の動作フローを例示する図である。 実施形態に係る学習済みモデルを例示する図である。 実施形態に係るクラス上限情報を例示する図である。 実施形態に係る要素画像の遮蔽度合いの特定の一例を示す図である。 実施形態に係る合成画像の選別を例示する図である。 実施形態に係る教師データの作成処理の動作フローを例示する図である。 実施形態に係る教師データの選別処理の動作フローを例示する図である。 実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。
図1は、例示的な合成画像の作成を説明する図である。また、図2は、例示的な合成画像の作成を示す図である。図1に示すように、背景画像に少なくとも1つの要素画像をランダムに配置することで、合成画像を作成することができる。背景画像は、例えば、背景として用いる画像であり、機械学習で作成する認識モデルで認識する対象要素が写っていない画像であってよい。また、要素画像は、例えば、作成する認識モデルで認識対象とする要素が写る画像から、要素の写る領域を切り出した画像であってよい。
例えば、猫を検出する認識モデルを作成する場合、図2に示すように、猫が写る画像から猫が写る領域を切り出して得られた少なくとも1つの要素画像を、猫が写っていない背景画像に配置することで、様々な合成画像203を作成することができる。図2では、背景画像201の上に、要素画像202-1から要素画像202-3の3つの要素画像を配置して合成画像203が作成されている。
また、要素画像202を適度に重ね合わせることで、対象物の一部が隠された合成画像203を作成することができる。例えば、図2では、要素画像202-1と、要素画像202-2が重ねて配置されており、背面に配置されている要素画像202-1の一部が、前面に配置されている要素画像202-2によって隠されている。このように要素画像202を重ね合わせて合成画像203を作成することで、ロバストな認識モデルを作成するのに適した教師データの画像を作成することができる。
一方で、要素画像202の重なりが過度になると、下側に配置されている要素画像202が前面に配置された要素画像202により遮蔽されてあまり見えなくなり、作成した教師データの画像から対象要素を検出することが困難になることがある。例えば、背面に配置された要素画像202の大部分が前面に配置されている要素画像202により隠されてしまった場合、背面に配置されている要素画像202から特徴を抽出できなくなるため、対象要素を認識できなくなる。そのため、例えば、作成した合成画像203が、機械学習に適しているかを人手でチェックして、不適切な画像を排除する作業が行われる。しかしながら、人手でのチェックには工数がかかる。また、人手での判断には、ばらつきがあるため、結果として作成される教師データの品質が低下することがある。そのため、作成した合成画像203のうちから機械学習に適していない画像を適切に排除することのできる技術の提供が求められている。
本願の発明者らは、要素画像202が遮蔽を許容できる程度は、要素画像202の複雑さと関係していると考えている。そのため、以下で述べる実施形態では、要素画像202の複雑さに応じて遮蔽を許容する上限値を異なる値に設定する。例えば、形状や色などが複雑な要素画像202の場合、遮蔽度合いが大きくても要素画像202に写る対象要素を認識可能であることが多い。また、要素画像202の遮蔽度合いを高くした方が、ロバストな認識モデルの作成に適した合成画像203を得ることができる。一方、複雑さの度合いが低く単純な画像の場合、遮蔽度合いが大きくなると対象要素の認識が難しくなるため、遮蔽度合いを低く抑えた方が認識精度の高い認識モデルを作成することができる。そのため、実施形態では、或る要素画像よりも別の要素画像の方が、複雑さが高いと評価される場合に、或る要素画像で許容する遮蔽度合いの上限値よりも、別の要素画像で許容する遮蔽度合いの上限値を高い値に設定する。以下、実施形態を更に詳細に説明する。
図3は、実施形態に係る情報処理装置300のブロック構成を例示する図である。情報処理装置300は、例えば、制御部301、および記憶部302を含む。制御部301は、例えば特定部311および選別部312などを含み、またその他の機能部を含んでもよい。記憶部302は、例えば、背景画像201、要素画像202、並びに、後述する画像クラス情報400、およびクラス上限情報700などの情報を記憶している。これらの各部の詳細および記憶部302に格納されている情報の詳細については後述する。
図4は、実施形態に係る要素画像202の複雑さに基づく分類について例示する図である。図4(a)では、要素画像202として猫が写る領域を抽出した画像が示されている。要素画像202からは、複雑さの指標を取得することができる。複雑さの指標は、例えば、要素画像202に写る対象要素の複雑さを表す情報であってよい。一例では、複雑さの指標は、要素画像202の色数および角数などであってよい。色数は、例えば、要素画像202で用いられる色の数である。色数は、一例では、RGB(red-green-blue)でカウントされた色数であってもよいし、HSV色空間で表された値でカウントされてもよい。また、要素画像202の複雑さの評価には、例えば、エッジ検出により要素の輪郭を検出して輪郭からピーク点を検出する技術を活用してもよい。例えば、角数は、要素画像202で要素の輪郭に含まれる角の数であってよい。なお、複雑さの指標は、色数および角数に限定されるものではなく、要素画像202の複雑さを表す値であれば、その他の値を用いることもできる。例えば、別の実施形態では、要素画像202に写る要素のシルエットの曲率が複雑さの指標として用いられてもよい。そして、例えば、要素画像202の分類を行う担当者は、これらの複雑さの指標、および要素画像202の見た目を参考に、経験および感覚に基づいて、要素画像202を複雑さに応じてクラス分けする。なお、クラス分けの結果は画像クラス情報400に登録されていてよい。
図4(b)は、実施形態に係る画像クラス情報400を例示する図である。画像クラス情報400には、例えば、要素画像ID(Identifier)およびクラスを対応づけるレコードが登録されている。要素画像IDは、例えば、レコードと対応する要素画像202を識別する識別情報である。クラスは、例えば、レコードと対応する要素画像202を、分類の担当者が複雑さに応じて分類したクラスであってよい。図4(b)に示す例では、クラス1、クラス4、およびクラス5の3つのクラスが示されており、要素画像202が複雑なほど高い数値のクラスに分類されている。クラスは、例えば、要素画像202が許容可能な遮蔽度合いを特定するために用いられる。
そして、例えば、制御部301は、図4(c)に示すように、画像クラス情報400の要素画像IDで識別される要素画像202を説明変数としてモデルに入力し、画像クラス情報400のクラスを目的変数として教師有りの機械学習を行う。それにより、要素画像202から対応するクラスを特定する学習済みモデルを作成することができる。なお、機械学習には、例えば、ニューラルネットワークおよびディープラーニングなどが利用されてよい。
図5は、実施形態に係るクラス分類のための学習済みモデルの作成処理の動作フローを例示する図である。制御部301は、例えば、学習済みモデルの作成指示が入力されると図5の動作フローを開始する。
ステップ501(以降、ステップを“S”と記載し、例えば、S501と表記する)において制御部301は、画像クラス情報400のレコードの情報に基づいて、要素画像202と、クラスとを対応づけた教師データのセットを読み出す。S502において制御部301は、教師データをモデルに入力して機械学習を実行する。
S503において制御部301は、学習により得られた学習済みモデルを記憶部302に保存し、本動作フローは終了する。
図5の動作フローによれば制御部301は、要素画像202から、要素画像202の複雑さに応じたクラスを判定する学習済みモデルを作成することができる。
図6は、実施形態に係るクラス判定の学習済みモデルを例示する図である。例えば、図6に示すように、要素画像202を学習済みモデルに入力することで、要素画像202のクラスを判定することができる。
なお、図4の例では、機械学習の入力に要素画像202を用いる例を述べているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では制御部301は、要素画像202に加えて更に、要素画像202から取得した色数、角数、および曲率などの複雑さの指標を機械学習の説明変数として入力してもよい。
続いて、実施形態に係る要素画像202を用いた合成画像203の作成について述べる。上述の図2を参照して述べたように、制御部301は、例えば、複数の背景画像201のうちからランダムに1枚の背景画像201を選択する。そして、制御部301は、背景画像201の上に、複数の要素画像202のうちからランダムに少なくとも1枚の要素画像を選択して配置することで、合成画像203を作成することができる。
なお、背景画像201の上に配置する要素画像202の配置数の上限は、所定の数に設定されていてよい。図2では、1枚から8枚の要素画像202を選択する例が示されており、要素画像202-1、要素画像202-2、および要素画像202-3の3枚の要素画像202が背景画像201の上に配置されている。
また、合成画像203の作成では、配置数の上限の他にも、画像サイズ、配置サイズなどのその条件が設定されていてもよい。画像サイズは、例えば、最終的に作成される合成画像203の画像サイズであってよく、一例では、320ピクセル×320ピクセルなどのピクセル単位で指定されていてよい。また、配置サイズは、例えば、合成画像203に要素画像202を配置する際の倍率の許容範囲を指定する情報であってよく、一例では、倍率の許容範囲は、要素画像202のサイズの0.05倍~0.7倍などの範囲に設定されていてよい。
また、合成画像203の作成の際に、その他の画像パラメータを摂動させてもよい。例えば、データ拡張では、画像に与える摂動として、平行移動、拡大縮小、回転、明るさの変更、コントラストの変更、ノイズの付与などの摂動が知られている。これらの摂動が、合成画像203の作成の際に、例えば、背景画像201、要素画像202、および合成画像203に与えられてもよい。例えば、制御部301は、合成画像203の作成の際に、背景画像201および要素画像202に、ブライトネス増減、コントラスト増減、色合い増減、シャープネス増減、画像反転などの摂動を与えてもよい。以下には、摂動範囲の一例を示す。
・ブライトネス増減:0.3~1.7 (基準値:1.0)
・コントラスト増減:0.5~1.5 (基準値:1.0)
・色合い増減:0.3~1.7 (基準値:1.0)
・シャープネス増減:-1.0~1.0 (基準値:0)
・画像反転:反転する、または、反転しない
この様に、合成画像203の作成の際に、様々な摂動を与えることで多様な合成画像203を作成することができる。摂動の種類および範囲は、例えば、実際には適用する機会学習のモデル、および配置したい要素画像202の種類などによって変更されてもよい。
また、図2の合成画像203では、要素画像202-1の前面に要素画像202-2が重ねて配置されている。ここで、要素画像202が遮蔽を許容できる度合いは、要素画像202の複雑さと関係していると考えられる。そのため、実施形態では、要素画像202が許容可能な遮蔽度合いの上限を、クラスごとに定めている。なお、以下では、遮蔽度合いとして、背面に配置されている要素画像202が、前面に配置された要素画像202により遮蔽される割合を用いる例を述べる。しかしながら、実施形態はこれに限定されるものではなく、背面に配置された要素画像202の遮蔽度合いを表す値であれば、その他の値が用いられてもよい。
図7は、実施形態に係るクラス上限情報700を例示する図である。クラス上限情報700には、例えば、クラスと対応する許容可能な遮蔽の上限値を示すレコードが登録されている。クラス上限情報700のクラスは、例えば、図4から図6を参照して述べた学習済みモデルにより分類されるクラスであってよい。また、クラス上限情報700の上限値は、例えば、レコードのクラスに対して設定されている遮蔽の割合の上限を示す情報である。
なお、クラス上限情報700に設定されている各クラスに対する遮蔽の割合の上限値は、例えば、以下のようにして決定することができる。
例えば、制御部301は、各クラスの要素画像202ごとにクラスに含まれる要素画像202を用いて複数の合成画像203を作成する。そして、制御部301は、クラスごとに得られた複数の合成画像203について、画像内での要素画像202の遮蔽の上限として異なる複数の値を設定する(例えば、10%、30%、50%、70%、90%など)。制御部301は、上限として設定した複数の値ごとに、画像内での要素画像202が受ける遮蔽が遮蔽の上限値以下となる合成画像203を、作成した複数の合成画像203のうちから選別する。
そして、制御部301は、上限として設定した値ごとに、抽出した合成画像203を教師データとして用いて合成画像203に配置した要素画像に写る要素を検出する認識モデルを作成するように機械学習を実行する。例えば、遮蔽の上限値:90%と対応する認識モデルを作成するとする。この場合、制御部301は、要素画像202を用いて作成した複数の合成画像203のうちから、遮蔽の割合が90%を超える合成画像を排除して、遮蔽の上限値:90%と対応する教師データのセットを作成する。そして、制御部301は、遮蔽の上限値:90%と対応する教師データのセットを用いて機械学習を実行し、合成画像203から要素画像202に写る対象要素を検出するための認識モデルを生成する。
同様に、10%、30%、50%、70%の遮蔽の上限値についても、それぞれの遮蔽の上限値と対応する教師データのセットを用いて機械学習を実行することで、合成画像203から要素画像202に写る対象要素を検出する認識モデルを生成することができる。
そして、それぞれの上限値で機械学習を行い得られた認識モデルによる要素の検出精度を評価することで、各クラスに応じた好ましい上限値を特定することができる。一例では、検出精度の最も高かった上限値を、クラスに対する上限値として採用することができる。
なお、実施形態に係る要素画像202が受ける遮蔽の割合は、例えば、以下のように特定されてよい。
図8は、実施形態に係る要素画像202が受ける遮蔽の割合の特定の例を説明する図である。図8(a)には、図2で例示する合成画像203から切り出された要素画像202の重なりを含む領域が示されている。なお、要素画像202は、一例では、RGBA(Red Green Blue Alpha)で表現されていてよい。図8(b)および図8(c)には要素画像202の要素のシルエットを示す画像が示されている。例えば、図8(b)および図8(c)に示す画像において黒色の領域は、要素画像202において完全透過な領域であってよい。
この場合、制御部301は、完全透過でない領域が認識対象の要素が写る要素領域と認識できる。また、合成画像203は階層構造になっている。例えば、図8(a)の合成画像203では背景が一番下の第1層、要素画像202-1が下から2番目の第2層、要素画像202-2が下から3番目で最前面の第3層に配置されている。この様に、要素画像202に重なりがある場合、その重なっている要素画像202の前面および背面の関係を明確に特定することができる。
そして、2つの要素画像202が重なっている重なり領域は、要素のシルエットの論理積をとることで求めることができる。例えば、制御部301は、図8(b)の要素画像202-2に写る要素のシルエットの画像配列と、図8(c)の要素画像202-2に写る要素のシルエットの画像配列との論理積を求めることで、図8(d)の重なり領域801を特定することができる。なお、配列の論理積は、例えば、Python(登録商標)の演算ライブラリで実行することができる。そして、制御部301は、論理積により求めた重なり領域801の面積を、背面にある要素画像202(図8では要素画像202-1)の面積で割ることで遮蔽の割合を求めることができる。遮蔽の割合は、例えば、背面に配置されている要素画像202-1が、前面に配置されている要素画像202-2により遮蔽される割合を示す値である。
また、例えば、要素画像202が3枚以上重なっている場合には、以下のように遮蔽の割合が求められてもよい。
例えば、遮蔽の割合を求める対象となる背面側に配置されている要素画像202を対象要素画像とする。そして、対象要素画像よりも前面の階層にある要素画像202を上位要素画像とする。この場合に、対象要素画像に対して、上位要素画像が複数ある場合は、複数の上位要素画像のそれぞれと対象要素画像との論理積を求め、得られた論理積の結果の論理和を対象要素画像の重なり領域801の面積として用いてよい。そして、得られた対象要素画像の重なり領域の面積を、対象要素画像の面積で割ることで遮蔽の割合が求められてよい。
以下には、遮蔽の割合の算出例を示す。例えば、最下層の背景画像201から上層へと要素画像A、要素画像B、要素画像Cの順番で重ねて配置されているものとする。この場合、要素画像Aの遮蔽の割合は、例えば、以下で求めることができる。
要素画像A ∩ 要素画像B = X(論理積)
要素画像A ∩ 要素画像C = Y(論理積)
X || Y = Z(論理和)
Z ÷ 要素画像Aの面積 = 要素画像Aの遮蔽の割合
この様に、合成画像203において3枚以上の要素画像202が重ねて配置されているとする。この場合、遮蔽度合いの特定対象の要素画像に対して、前面に配置されている少なくとも1つの要素画像によって特定対象の要素画像が遮蔽される領域が占める割合を、遮蔽度合いとして特定してよい。
また、要素画像Bの遮蔽の割合は、例えば、以下で求めることができる。
要素画像B ∩ 要素画像C = W(論理積)
W ÷ 要素画像Bの面積 = 要素画像Bの遮蔽の割合
このように、合成画像203において、別の要素画像202によって遮蔽される要素画像202の領域が、その要素画像202に対して占める割合を、遮蔽度合いとして特定してよい。
例えば、以上のようにして、合成画像203に配置されている要素画像202に重なりがある場合、その重なりによる遮蔽の割合を、遮蔽度合いを示す値として特定することができる。
そして、得られた遮蔽度合いを用いて、認識モデルを作成するための機械学習に用いる教師データとして、合成画像203が適切か否かを判定することができる。
図9は、実施形態に係る合成画像203の選別を例示する図である。制御部301は、例えば、合成画像203に含まれる要素画像202の重なりごとに、背面に配置されている要素画像202の遮蔽度合いを求める(図9の(1))。また、制御部301は、例えば、図6を参照して述べたように、遮蔽度合いを求めた要素画像202をクラス判定の学習済みモデルに入力することで、複雑さに応じたクラスを特定する(図9の(2))。そして、制御部301は、特定したクラスと対応する遮蔽の上限値をクラス上限情報700から取得し、背面に配置されている要素画像202の遮蔽度合いが上限値以下か否かを判定する(図9の(3))。例えば、制御部301は、要素画像202の遮蔽度合いが上限値以下である場合、認識モデルを作成するための機械学習で用いる教師データとして合成画像203を選別してよい(図9の(4))。一方、例えば、制御部301は、要素画像202の遮蔽度合いが、上限値を超えている場合、合成画像203は機械学習に不適切な画像であるとして教師データから合成画像203を排除してよい(図9の(5))。
以上の図9で述べたように、制御部301は、合成画像203が重なりを含む場合、要素画像202の複雑さに応じて特定される遮蔽度合いの上限値により、適切な合成画像203を教師データとして選別することができる。
続いて、認識対象の要素を検出する認識モデルの機械学習のための教師データの作成処理について説明する。図10は、実施形態に係る教師データの作成処理の動作フローを例示する図である。例えば、制御部301は、教師データの作成指示が入力されると、図10の動作フローを開始してよい。
S1001において制御部301は、背景画像201を選択する。例えば、制御部301は、複数の背景画像201のうちから、1枚の背景画像201をランダムに選択する。
S1002において制御部301は、所定数以下の少なくとも1つの要素画像202をランダムに選択し、背景画像201の上に配置して合成画像203を作成する。なお、要素画像202は、例えば、機械学習において認識モデルの認識対象とする要素の画像であってよい。
S1003において制御部301は、得られた合成画像203に、配置した要素画像202に写る要素と、配置した位置とを示すラベルを対応づけて、記憶部302に記憶する。
S1004において制御部301は、合成画像203の作成が完了したか否かを判定する。例えば、制御部301は、合成画像203の作成を所定回数繰り返してよく、S1004において繰り返しの回数が所定回数に達していれば作成完了と判定してもよい。合成画像203の作成が完了していない場合(S1004がNO)、フローはS1001に戻り、更に合成画像203の作成を継続する。一方、合成画像203の作成が完了している場合(S1004がYES)、フローはS1005に進む。
S1005において制御部301は、教師データの選別処理を実行し、本動作フローは終了する。教師データの選別処理では、制御部301は、例えば、得られた合成画像203のうちから、要素画像202に写る要素を検出する認識モデルの作成に適した合成画像203を選別し、教師データとして保存する。また、制御部301は、教師データの選別処理で機械学習に不適切な合成画像203を排除する処理を実行してよい。
図11は、実施形態に係る教師データの選別処理の動作フローを例示する図である。制御部301は、例えば、S1005に進むと、図11の動作フローを開始してよい。
S1101において制御部301は、作成した合成画像203のうちから1枚の合成画像203を選択する。S1102において制御部301は、選択した合成画像203が要素画像202の重なりを含む場合、その要素画像202の重なりについて遮蔽の割合を特定する。例えば、制御部301は、背面に配置されている要素画像202が、前面に配置されている要素画像202により遮蔽される割合を、遮蔽の割合として求めてよい。なお、合成画像203が要素画像202の重なりを複数含む場合、制御部301は、複数の重なりのそれぞれについて、遮蔽の割合を求めてよい。一例では、制御部301は、図8を参照して例示したように、要素画像202の遮蔽の割合を求めてよい。
S1103において制御部301は、遮蔽の割合を求めた背面に配置されている要素画像202のクラスを特定する。例えば、制御部301は、遮蔽の割合を求めた要素画像202のクラスを画像クラス情報400から特定してよい。別の例では、制御部301は、重なりにおいて背面に配置されている要素画像202を、クラス判定の学習済みモデルに入力してクラスを特定してもよい。
S1104において制御部301は、要素画像202の遮蔽の割合が、要素画像202のクラスと対応する上限値以下であるか否かを判定する。例えば、制御部301は、要素画像202のクラスと対応する上限値をクラス上限情報700から取得し、S1102で特定した遮蔽の割合が上限値以下であるか否かを判定してよい。遮蔽の割合がクラスと対応する上限値以下である場合(S1104がYES)、フローはS1105に進む。この場合、合成画像203は、認識モデルの機械学習に適した教師データである。そのため、制御部301は、合成画像203を、S1003で付与されたラベルの情報と対応づけて教師データとして選別し、記憶部302に保存して、フローはS1107に進む。
一方、S1104において要素画像202の遮蔽の割合がクラスと対応する上限値を超えている場合(S1104がNO)、フローはS1106に進む。この場合、選択した合成画像203では、重なりにより背面の要素画像202が遮蔽されすぎており、認識モデルの機械学習に適した画像ではない。そのため、制御部301は、選択した合成画像203を教師データから排除して、フローはS1107に進む。一例では、制御部301は、選択した合成画像203を破棄してよい。なお、合成画像203に複数の要素画像202の重なりが含まれていることもある。この場合、背面に配置されているいずれの要素画像202でも遮蔽の割合が上限値以下であれば、制御部301は、S1104においてYESと判定してよい。
S1107において制御部301は、未処理の合成画像203があるか否かを判定する。未処理の合成画像203がある場合(S1107がYES)、フローはS1101に戻り、未処理の合成画像203を更に選択して処理を繰り返す。一方、未処理の合成画像203がない場合(S1107がNO)、本動作フローは終了し、フローはS1005の処理に戻って、図10の動作フローも終了する。
以上の図10および図11の動作フローによれば、制御部301は、要素画像202が、モデルの機械学習に適した度合いで遮蔽されている教師データを作成することができる。そのため、得られた教師データを用いて認識モデルの機械学習を行うことで、認識対象の要素の検出精度の高い認識モデルを作成することができる。
また、上述の実施形態では、要素画像202は、複雑さに応じて複数のクラスに分類されている。また、複数のクラスのうちの或るクラスに設定されている許容可能な遮蔽度合いの上限値は、そのクラスに分類される要素画像202よりも複雑さが低く評価された要素画像202が分類される別のクラスに設定されている上限値よりも高い値に設定されている。このように、要素画像202の複雑さに基づいて許容可能な遮蔽度合いの上限を異ならせることで、複雑さに応じて機械学習に適した教師データを作成することができる。
なお、上述の実施形態は、例えば、機械学習のための教師データの作成に利用されてよい。また、別の例では、例えば、少量の画像から大量のアノテーション済み教師データを作成する支援サービスにおいて利用されてもよい。
以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、または、一部の処理が省略されてもよい。例えば、図11のS1102とS1103の処理は順序を入れ替えて実行されてもよい。
また、上述の例では、許容可能な重なりを定める値として、遮蔽の割合を用いる例を述べているが、実施形態はこれに限定されるものではなく、遮蔽の度合いを表すその他の値で許容可能な遮蔽の度合いの上限値が定められてもよい。
なお、上述の実施形態においてS1102の処理で、制御部301は、例えば、特定部311として動作する。S1005およびS1105の処理で、制御部301は、例えば、選別部312として動作する。
図12は、実施形態に係る情報処理装置300を実現するためのコンピュータ1200のハードウェア構成を例示する図である。図12の情報処理装置300を実現するためのハードウェア構成は、例えば、プロセッサ1201、メモリ1202、記憶装置1203、読取装置1204、通信インタフェース1206、および入出力インタフェース1207を備える。なお、プロセッサ1201、メモリ1202、記憶装置1203、読取装置1204、通信インタフェース1206、入出力インタフェース1207は、例えば、バス1208を介して互いに接続されている。
プロセッサ1201は、例えば、シングルプロセッサであっても、マルチプロセッサまたはマルチコアであってもよい。プロセッサ1201は、メモリ1202を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述した制御部301の一部または全部の機能を提供する。例えば、情報処理装置300のプロセッサ1201は、記憶装置1203に格納されているプログラムを読み出して実行することで、特定部311および選別部312として動作する。
メモリ1202は、例えば半導体メモリであり、RAM領域およびROM領域を含んでいてよい。記憶装置1203は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
読取装置1204は、プロセッサ1201の指示に従って着脱可能記憶媒体1205にアクセスする。着脱可能記憶媒体1205は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、USB(Universal Serial Bus)メモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、CD-ROM、DVD、Blu-ray Disc等(Blu-rayは登録商標)である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
記憶部302は、例えばメモリ1202、記憶装置1203、および着脱可能記憶媒体1205を含んでいる。例えば、情報処理装置300の記憶装置1203には、例えば、背景画像201、要素画像202、画像クラス情報400、およびクラス上限情報700などの情報が格納されている。
通信インタフェース1206は、プロセッサ1201の指示に従って、有線または無線通信で他の装置と通信する。
入出力インタフェース1207は、例えば、入力装置および出力装置との間のインタフェースである。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスである。出力装置は、例えばディスプレーなどの表示装置、およびスピーカなどの音声装置である。
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置300に提供される。
(1)記憶装置1203に予めインストールされている。
(2)着脱可能記憶媒体1205により提供される。
(3)プログラムサーバなどのサーバから提供される。
なお、図12を参照して述べた情報処理装置300を実現するためのコンピュータ1200のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部301の一部または全部の機能がFPGA、SoC、ASIC、およびPLDなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。ASICは、Application Specific Integrated Circuitの略称である。PLDは、Programmable Logic Deviceの略称である。
以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。
201 背景画像
202 要素画像
203 合成画像
300 情報処理装置
301 制御部
302 記憶部
311 特定部
312 選定部
1200 コンピュータ
1201 プロセッサ
1202 メモリ
1203 記憶装置
1204 読取装置
1205 着脱可能記憶媒体
1206 通信インタフェース
1207 入出力インタフェース
1208 バス

Claims (7)

  1. 対象要素が写る複数の要素画像を背景画像の上に配置して作成された合成画像が、要素画像の重なりを含む場合、前記重なりにおいて背面に配置されている第1の要素画像が、前記重なりにおいて前面に配置されている第2の要素画像によって遮蔽される度合いを表す遮蔽度合いを特定し、
    前記遮蔽度合いが、前記第1の要素画像の複雑さに応じて特定される上限値以下の場合、前記対象要素を検出する認識モデルを生成するための機械学習で用いる教師データとして前記合成画像を選別する、
    処理をコンピュータに実行させる選別プログラム。
  2. 前記選別する処理は、前記遮蔽度合いが、前記第1の要素画像の複雑さに応じて特定される前記上限値よりも高い場合、前記教師データから前記合成画像を排除する、請求項1に記載の選別プログラム。
  3. 前記複数の要素画像は、要素画像の複雑さに応じて複数のクラスに分類されており、
    前記複数のクラスのうちの第1のクラスに設定されている第1の上限値は、前記第1のクラスに分類される要素画像よりも複雑さが低く評価された要素画像が分類される第2のクラスに設定されている第2の上限値よりも高い値に設定されている、請求項1または2に記載の選別プログラム。
  4. 前記特定する処理は、前記合成画像において、前記第2の要素画像によって遮蔽される前記第1の要素画像の領域が、前記第1の要素画像に対して占める割合を、前記遮蔽度合いとして特定する、請求項1から3のいずれか1項に記載の選別プログラム。
  5. 前記特定する処理は、前記合成画像において3枚以上の要素画像が重ねて配置されている場合、前記遮蔽度合いの特定対象の要素画像に対して、前記特定対象の要素画像の前面に配置されている少なくとも1つの要素画像によって遮蔽される領域が占める割合を、前記遮蔽度合いとして特定する、請求項1から4のいずれか1項に記載の選別プログラム。
  6. 対象要素が写る複数の要素画像を背景画像の上に配置して作成された合成画像が、要素画像の重なりを含む場合、前記重なりにおいて背面に配置されている第1の要素画像が、前記重なりにおいて前面に配置されている第2の要素画像によって遮蔽される度合いを表す遮蔽度合いを特定し、
    前記遮蔽度合いが、前記第1の要素画像の複雑さに応じて特定される上限値以下の場合、前記対象要素を検出する認識モデルを生成するための機械学習で用いる教師データとして前記合成画像を選別する、
    ことを含む、コンピュータが実行する選別方法。
  7. 対象要素が写る複数の要素画像を背景画像の上に配置して作成された合成画像が、要素画像の重なりを含む場合、前記重なりにおいて背面に配置されている第1の要素画像が、前記重なりにおいて前面に配置されている第2の要素画像によって遮蔽される度合いを表す遮蔽度合いを特定する特定部と、
    前記遮蔽度合いが、前記第1の要素画像の複雑さに応じて特定される上限値以下の場合、前記対象要素を検出する認識モデルを生成するための機械学習で用いる教師データとして前記合成画像を選別する選別部と、
    を含む、情報処理装置。

JP2020129937A 2020-07-31 2020-07-31 選別プログラム、選別方法、および情報処理装置 Active JP7459713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020129937A JP7459713B2 (ja) 2020-07-31 2020-07-31 選別プログラム、選別方法、および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020129937A JP7459713B2 (ja) 2020-07-31 2020-07-31 選別プログラム、選別方法、および情報処理装置

Publications (2)

Publication Number Publication Date
JP2022026456A JP2022026456A (ja) 2022-02-10
JP7459713B2 true JP7459713B2 (ja) 2024-04-02

Family

ID=80263622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020129937A Active JP7459713B2 (ja) 2020-07-31 2020-07-31 選別プログラム、選別方法、および情報処理装置

Country Status (1)

Country Link
JP (1) JP7459713B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023122766A (ja) 2022-02-24 2023-09-05 大同特殊鋼株式会社 金型用鋼および金型
JP2023179333A (ja) * 2022-06-07 2023-12-19 ブラザー工業株式会社 コンピュータプログラム、処理方法、および、処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092672A (ja) 2014-11-07 2016-05-23 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2019087044A (ja) 2017-11-07 2019-06-06 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092672A (ja) 2014-11-07 2016-05-23 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP2018163554A (ja) 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2019087044A (ja) 2017-11-07 2019-06-06 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松岡 海登、外4名,"DNNによる外観検査自動化のための実画像らしさを考慮した画像生成手法の検討",第24回 画像センシングシンポジウム SSII2018,日本,画像センシング技術研究会,2018年06月13日,pp.1-6
青木 公也、外3名,"深層学習による外観検査自動化における学習画像生成",画像ラボ,日本,日本工業出版株式会社,2019年03月10日,Vol.30, No.3,pp.5-10

Also Published As

Publication number Publication date
JP2022026456A (ja) 2022-02-10

Similar Documents

Publication Publication Date Title
JP6799146B2 (ja) 視覚化されたスライド全域画像分析を提供するためのデジタル病理学システムおよび関連するワークフロー
Couteaux et al. Towards interpretability of segmentation networks by analyzing deepdreams
US8335374B2 (en) Image segmentation
JP7459713B2 (ja) 選別プログラム、選別方法、および情報処理装置
JP4294348B2 (ja) 表示システム
CN108122239A (zh) 使用深度分割的图像数据中的对象检测
EP2846309B1 (en) Method and apparatus for segmenting object in image
JP6722351B2 (ja) 学習装置、画像認識装置、学習方法及びプログラム
JP2011134115A (ja) 画像処理装置、画像処理方法およびプログラム
CN103518183B (zh) 图形对象分类
JP5103955B2 (ja) 画像検索方法、装置およびプログラム
US20190236813A1 (en) Information processing apparatus, information processing program, and information processing method
CN110188217A (zh) 图像查重方法、装置、设备和计算机可读储存介质
JP4772819B2 (ja) 画像検索装置および画像検索方法
EP3997628A1 (en) Techniques for visualizing the operation of neural networks
CN115048969A (zh) 用于评估、理解和改进深度神经网络的视觉分析系统
US20220222791A1 (en) Generating image masks from digital images utilizing color density estimation and deep learning models
JP2007200246A (ja) 画像処理アルゴリズムの評価方法、生成方法、装置、プログラムおよび記録媒体
CN113345052A (zh) 基于相似显著性的分类数据多视图可视化着色方法及系统
US8971669B2 (en) Method and apparatus for image processing
KR20200044227A (ko) 이미지에 대한 기계 학습을 수행하기 위한 방법 및 장치
JP5942827B2 (ja) 情報処理装置及び情報処理プログラム
JP2019153230A (ja) 情報処理装置及び情報処理プログラム
Szczypiński qMaZda manual
Bäuerle et al. Training de-confusion: an interactive, network-supported visual analysis system for resolving errors in image classification training data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230407

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231024

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240304

R150 Certificate of patent or registration of utility model

Ref document number: 7459713

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150