JP2019207535A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2019207535A
JP2019207535A JP2018102273A JP2018102273A JP2019207535A JP 2019207535 A JP2019207535 A JP 2019207535A JP 2018102273 A JP2018102273 A JP 2018102273A JP 2018102273 A JP2018102273 A JP 2018102273A JP 2019207535 A JP2019207535 A JP 2019207535A
Authority
JP
Japan
Prior art keywords
region
image
area
ambiguous
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018102273A
Other languages
English (en)
Inventor
慧 ▲高▼山
慧 ▲高▼山
Kei Takayama
優和 真継
Masakazu Matsugi
優和 真継
裕輔 御手洗
Hirosuke Mitarai
裕輔 御手洗
敦史 野上
Atsushi Nogami
敦史 野上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018102273A priority Critical patent/JP2019207535A/ja
Publication of JP2019207535A publication Critical patent/JP2019207535A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】対象物と背景の境界周辺の領域の学習を抑制する教師画像を容易に生成する情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】画像における対象物の領域を抽出する学習モデルの教師画像を生成する情報処理装置100であって、対象物が写った画像から対象物の領域を示す閉領域を抽出する操作を受け付ける操作手段130と、閉領域である第1の領域と、第1の領域の外縁である第2の領域とを決定する決定手段140と、第1の領域に対して対象物の領域であることを示す第1の値を、第2の領域に対して学習モデルの学習への寄与を抑制する第2の値を、付与した教師画像を生成する生成手段150とを有する。【選択図】図2

Description

学習モデルの教師画像を生成する技術に関する。
機械学習の方法として、画像の特徴と正解ラベルのペアである教師画像を用いることが知られている。特許文献1では、検知対象の領域が分類されるべきカテゴリとその妥当性を示す確信レベルを領域毎にユーザが付与した教師画像を生成する。学習時には、確信レベルが高い領域を教師画像として用いて検知対象のカテゴリを学習する方法が開示されている。
また、画像を用いた機械学習の分野では、画像内の特定の対象物の領域や輪郭を検知する領域分割問題を解く学習モデルの研究が行われている。この学習モデルは、大量の画像と、画像に写った対象物の領域や輪郭を示す正解である位置にラベル付けをした教師画像を用いて学習することで構築することができる。
特開2006−189915号公報
しかし、ユーザが見ても対象物の領域として正解か不正解か判断が難しい領域を含む画像である場合、教師画像のラベル付けの判断をユーザが間違ってしまうことがあった。従来の方法では、ラベル付けの判断を間違いやすい領域を、教師画像に簡単に設定することはできなかった。
本発明は、上記の課題に鑑みてなされたものであり、ラベル付けの判断を間違いやすい領域を考慮した教師画像を生成することを目的とする。
上記課題を解決する本発明にかかる情報処理装置は、画像における対象物の領域を抽出する学習モデルの教師画像を生成する情報処理装置であって、対象物が写った画像から前記対象物の領域を示す閉領域を抽出する操作を受け付ける操作手段と、前記閉領域である第1の領域と、前記第1の領域の外縁である第2の領域とを決定する決定手段と、前記第1の領域に対して前記対象物の領域であることを示す第1の値を、前記第2の領域に対して前記学習モデルの学習への寄与を抑制する第2の値を、付与した教師画像を生成する生成手段とを有することを特徴とする。
本発明によれば、ラベル付けの判断を間違いやすい領域を、教師画像に簡単に設定できる。
ハードウェア構成の一例を示す図 情報処理装置の機能構成例を示すブロック図 情報処理装置が実行する処理の流れを説明するフローチャート 曖昧領域を決定する処理の例を説明する図 ユーザが教師画像の修正操作を行う例を説明する図 曖昧領域をユーザが手動で決定する際の表示例を説明する図 確率マップを用いて曖昧領域を決定する処理例を説明する図 情報処理装置が実行する処理の流れを説明するフローチャート 曖昧領域の候補の中から、ユーザに曖昧領域を選ばせる例を説明する図 情報処理装置が実行する処理の流れを説明するフローチャート ユーザが教師画像の修正操作を行う例を説明する図 曖昧領域を決定する処理例を説明する図 情報処理装置の機能構成例を示すブロック図 情報処理装置が実行する処理の流れを説明するフローチャート
以下、図面を用いて本発明の実施形態について説明する。
<実施形態1>
本実施形態は、画像の対象物の領域を抽出する学習モデルを構築するための教師画像を生成する情報処理装置について説明する。特に、ユーザの入力に基づいて教師画像における曖昧領域を決定する方法を示す。ユースケースとしては、例えば、デジタルカメラで特定の人や動物を撮影し、より見栄えが良い画像を取得することを想定する。そのとき、画像の領域毎に適切な画像処理を加える必要がある。例えば、被写体が存在する領域は解像度を高くすることや、空や海などの風景は色味を強調することが挙げられる。このような処理を行う場合、画像中の各画素の意味的なカテゴリを認識する意味的領域分割を行う学習モデルが有効である。実施形態1では検知対象を犬として、入力画像における検知対象の輪郭または領域を出力する学習モデルとして、曖昧領域データをルールベースで決定する方法を説明する。以下の説明では、輪郭抽出の場合と領域抽出の場合の両方について述べる。
はじめに、本実施形態で用いる用語について定義する。曖昧領域は、検知対象を撮像した画像のうち、正解であると確信がないが、正解である可能性がある領域である。データ上に検知対象の輪郭が存在するが目視では分かりにくく、特定の画像特徴を抽出する微分フィルタを適用してもその位置が定まらない場合において、輪郭位置の可能性のある領域とする。具体的には、輪郭の形状が複雑な場合や、輪郭周辺の輝度変化が小さい場合がある。
輪郭が複雑な例として、犬や鳥などの毛皮に覆われた動物の輪郭が挙げられる。このような輪郭が複雑な動物を撮像した画像に微分フィルタを適用すると、画像特徴の勾配の大きい境界を連続的に抽出できない。さらに検知対象と背景の境界付近にエッジが複数出現することから、エッジ抽出結果から簡単に境界を決めることができない。
輪郭周辺の輝度変化が小さい例には、海と砂浜の境界や、解像度が低い画像や、動いてぶれて見える人の輪郭が挙げられる。このような輪郭を含む画像に微分フィルタを適用すると、検知対象領域から背景領域にかけての輝度変化がなだらかなため、微分フィルタにより輪郭を抽出できない。曖昧領域には、曖昧であることを示す教師値を画素ごとに与え、学習の際のパラメータ更新に与える影響を抑制する。具体的な処理は後述する。これによって、領域分割が精度良く行える。
以上に示した曖昧領域を含む画像を対象として、本実施形態で説明する情報処理装置は、画像における対象物の領域を抽出する学習モデルが教師とする教師画像を生成する。具体的にはユーザに画像に写った検知対象物の輪郭位置に入力操作を行わせ、操作内容に基づいて検知対象領域、背景領域、曖昧領域から構成される教師画像を作成し、出力する。ただし、教師画像の検知対象領域は、輪郭抽出のときは輪郭を指し、領域抽出のときは領域を指すものとする。情報処理装置が出力する教師画像の検知対象領域は、輪郭抽出の場合は輪郭の位置とし、領域抽出の場合は輪郭に囲まれた閉領域とする。曖昧領域は検知対象の輪郭の周辺に設定し、背景領域は教師画像の領域のうち検知対象領域と曖昧領域のいずれにも該当しない領域とする。教師画像とは、画像と教師値を合わせた画像であるとする。教師値には、例えば、対象物の領域には正解を示す1、背景の領域には0、曖昧領域には0から1の間の値を与える。
図1は、情報処理装置のハードウェア構成例を示す図である。H01はCPUであり、システムバスH09に接続された各種デバイスの制御を行う。H02はROMであり、BIOS(BaSic Input/Output SyStem)のプログラムやブートプログラムを記憶する。H03はRAMであり、CPUであるH01の主記憶装置として使用される。H04は記憶装置であり、情報処理装置が処理するプログラムを格納する。入力部H05はタッチパネルやキーボード、マウス、ロボットコントローラーであり、ユーザによる情報等の入力操作に係る処理を行う。H06は通信インターフェイスであり、ネットワークを介して情報通信を行うものであり、通信インターフェイスはイーサネット(登録商標)でもよく、USBやシリアル通信、無線通信等種類は問わない。表示部H07はCPUからの指示に従って情報処理装置の演算結果を表示装置に出力する。なお、表示装置は液晶表示装置やプロジェクタ、LEDインジケータなど、種類は問わない。情報処理装置100及び関連する構成は、ネットワークまたは各種情報記録媒体を介して取得したソフトウェア(プログラム)を、CPU、メモリ、ストレージデバイス、入出力装置、バス、表示装置などにより構成される計算機によって実行することで実現できる。なお、計算機については、汎用の計算機を用いても良いし、本実施形態または以下の各実施形態で説明するソフトウェアに最適に設計されたハードウェアを用いても良い。
図2には、情報処理装置の機能構成例を示すブロック図を示す。情報処理装置100は入力部110、表示制御部120、入力操作部130、決定部140、生成部150、格納部160、修正部170、学習部180から構成される。各機能構成部の概略を説明し、処理の詳細は後述する。入力部110は、教師画像を生成するための画像を入力する。ここでは、検出対象である対象物が写っている画像であるとする。表示制御部120は、入力部で入力された画像、または格納部160に格納された教師画像を取得し、ユーザに見せるための表示を画面に出力する。入力操作部130はユーザからの入力操作を受け付ける。入力操作部130は、ユーザが正解であるという確信がもてる対象物の領域または輪郭を示す領域の入力操作を受け付け、トレースデータを取得する。決定部140は、入力操作部130でユーザに入力されたトレースデータに基づいて、教師画像における曖昧領域を決定する。生成部150は、入力操作部130と決定部140から情報を受け付け、教師画像を作成する。ここで作成した教師画像は、格納部160に送られ、格納される。格納部160は、画像と教師値を合わせた教師画像を格納する。修正部170はユーザから教師値の修正を受け付け、修正された教師値を格納部160に送る。学習部180では格納部160から画像と教師値を受け取り、学習を行う。修正部170、学習部180が実行する具体的な処理については後述する。
以降では、入力操作部にてユーザが手動で入力する検知対象領域を示す画像をトレースデータと記載する。また、決定された検知対象領域の周辺領域を曖昧領域と記載する。トレースデータと曖昧領域データは領域で定義された画像であって、領域の各画素に異なる画素値を持つ。この画素値は教師画像における教師値に対応する。トレースデータと曖昧領域データは、それ自体が教師画像ではなく生成部で教師画像を作成するために使用する画像である。トレースデータは、対象物が存在する領域、すなわち検知対象領域を示す画像である。本実施形態におけるトレースデータは、教師画像と同じサイズの画像であって、ユーザの入力操作に従って正解のラベル(例えば1)を格納した画像である。トレースデータは、データ量が画像より小さいベクターデータでも良い。ベクターデータである場合は処理速度が向上する効果がある。入力操作部は、ユーザからの入力操作を受け付けるとトレースデータを生成する。ユーザが入力操作をすると同時に画面上でトレースデータを確認できるように、表示制御部がトレースデータを表示するように制御する。トレースデータは入力操作部から決定部と生成部に送られる。決定部はトレースデータに基づいて正解領域を決定する。生成部はトレースデータを使って検知対象領域に対象物があることを示すラベルを付与した教師画像を生成する。曖昧領域データはトレースデータに基づいて生成する画像であり、検知対象領域の外縁である領域に対象物が存在する可能性を示す。曖昧領域データ作成後は、表示画面上で曖昧領域が示す範囲を確認できる。決定部は、入力操作部から入力されたトレースデータを用いて、曖昧領域を決定し、曖昧領域データを生成部に出力する。生成部は、曖昧領域データに基づいて曖昧領域に曖昧ラベルを付与した教師画像を生成する。
入力部110は、ユーザが事前に用意した、対象物が写った画像を入力する。画像は、RGBカラー画像やグレースケール画像が含まれるものとし、これらの画像に対してノイズ除去を行った画像であっても良い。RGBカラー画像以外でも、白黒画像やグレースケールの濃淡画像でも良い。また、カメラで撮像する画像以外でも、赤外線カメラによる赤外線写真や、LidarやToFを代表とするアクティブ距離センサで得た距離を色等で表現した距離画像でも良い。
次に、表示制御部120ついて説明する。表示制御部では、入力された画像や生成されたトレースデータ、曖昧領域データ、教師画像を画面に出力する。教師画像を表示する場合は、ユーザに入力や修正の操作を促すことができる。ユーザはトレースデータや曖昧領域データ、教師画像を確認することで、望ましい教師画像が生成できているか確認できる。曖昧領域データとトレースデータは両方とも同時に確認させても良いし、いずれかを切り替えながら確認させても良い。処理の手順としては、まず格納部で格納している画像を取得する。ユーザにトレースデータを入力させるため、表示制御部は画像を画面に出力させる制御をする。その後、ユーザの操作に応じて、最新の教師画像をユーザに確認させるために画像と教師画像を重畳した表示画像を随時生成し、画面に出力する。教師画像を確認することによって、ユーザは検出対象領域や曖昧領域に背景部分が含まれていないかチェックできる。背景であることが確からしい領域を正解領域または曖昧領域に含まないようにすることで、教師画像の精度を向上させることが期待できる。表示画面上では、教師画像の正解領域と曖昧領域には、ユーザが区別できるように異なる色を1種類ずつ割り当てて表示する。異なる色で表示することによって、画像内の正解領域や曖昧領域の設定領域が、ユーザにとって確認しやすくなる。教師画像の曖昧部分に0から1の実数値を設定している場合には、正解領域や曖昧領域を画面に出力する際に、教師画像の画素値と対応するように設定することもできる。例えば、表示画面上では曖昧領域の画素値を255倍した値をRGBカラーのいずれかの色に設定する。 このように教師画像の画素値と対応するように設定することにより、曖昧領域の中でも、教師画像上において教師値が大きい(正解に近い)部分領域や小さい部分領域(背景に近い)を直観的に確認しやすい。また、正解領域も曖昧領域も透過色で着色して表示することで、視認性を向上させても良い。透過色を用いることによって、教師画像に写った実際の対象物の特徴と、決定された正解領域と曖昧領域とを比較しながら確認しやすい。
入力操作部130は、ユーザの入力操作を受け付ける。本実施形態では、画像に写った検知対象の領域をユーザがなぞることで検知対象領域を抽出する。つまり、入力操作部は入力操作によって抽出された閉領域を検知対象領域(第1領域)として取得し、トレースデータ(第1領域を示す画像)を生成する。本実施形態では、ユーザが確信を持てる対象物の領域または輪郭だけを入力する。ユーザが確信を持てる領域のみ入力すればいいので、ユーザにとって利便性が高い。なお、検知対象物が画角からはみ出して撮影されている場合、検知対象領域は閉領域であるとは限らない。その場合は、ユーザの入力した線と、画像の縁で囲まれる領域を閉領域とする。
決定部140は、予め入力されたトレースデータに基づいて、閉領域である検知対象領域(第1領域)と、検知対象領域の外縁である曖昧領域(第2領域)と、背景領域(第3領域)を決定する。実施形態1では、入力操作部130でユーザが入力したトレースデータが示す閉領域の外縁に曖昧領域を決定する。本実施形態では、検知対象領域を所定の幅で膨張させるといった一定のルールによって教師画像の曖昧領域を決定する。詳しい処理は後述する。この処理によって、ユーザが見ても正解か不正解か判断が難しい対象物の輪郭や対象物の領域の周囲に対して、学習モデルのパラメータの更新を抑制するラベルを付与した教師画像を生成できる。さらに、決定部140は、トレースデータに基づいて対象物が存在しない背景領域(第3領域)を決定する。背景領域は、入力操作部130で検知対象領域でないとされた領域である。なお、領域を決定する方法は複数ある。そのうちの1つの方法を説明する。まずトレースデータに基づいて対応する閉領域を検知対象領域に決定する。検知対象領域から、検知対象領域の境界領域でかつ閉領域の外側の部分領域(外縁)を曖昧領域に決定する。最後に、検知対象領域でも曖昧領域でもない領域を背景領域として決定する。なお、領域を決定する順番はこれに限定されない。例えば、入力画像に対応する教師画像の全画素について、まず背景領域を決定する。次に、トレースデータに基づいて対応する閉領域を検知対象領域に決定する。最後に、曖昧領域は、背景領域のうち、検知対象領域との境界周辺に決定する。このように曖昧領域より先に背景領域を決定しても良い。なお、外縁の幅はユーザの意図によって変更できる。
生成部150は、入力された画像のうち、検知対象領域(第1領域)に対して対象物の領域であることを示す正解の教師値(第1教師値)を付与する。また、曖昧領域(第2領域)に対して学習モデルのパラメータの更新を抑制する教師値(第2教師値)を付与する。さらに、背景領域(第3領域)に対して、対象物ではないことを示す不正解の教師値(第3教師値)を付与する。すなわち、生成部は、入力された画像の各画素または領域に、正解、曖昧、不正解の3つの教師値を付与した教師画像を生成する。教師画像に3クラスの領域を設定することで、学習モデルは正解と不正解のデータの実空間や特徴空間における距離が離れた状態で学習できるため、2つの領域をより精度良く識別できるようになる。教師画像は、学習モデルの入力画像と同じサイズの画像で、検知対象領域、曖昧領域、背景領域を設定した画像である。なお、教師画像は、ユーザによる修正操作を受けるタイミングで更新される。
格納部160は、入力部から受け取る画像と、生成部から取得する教師画像を格納する。
図3を用いて、情報処理装置が実行する処理の流れを説明する。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。フローチャートの概略を述べる。S201では、入力部110が、教師画像の基となる画像を入力する。S202では、表示制御部120が、入力された画像を画面に表示制御する。ユーザは表示を参照しながら検知対象物の領域を抽出する。S203では、入力操作部130が、ユーザによって入力されたトレースデータを受け付ける。S204では、入力操作部130が、ユーザによる入力操作が終了したか否かを判断する。入力操作が続行する場合は、S202に戻る。入力操作の終了指示があった場合は、S205に進む。次に、S205では、決定部140が、S203でユーザの入力したトレースデータに基づき検知対象領域の外縁を示す曖昧領域データを生成する。S206では、生成部150が、入力された画像の各画素または領域に、正解、曖昧、不正解の3つの教師値を付与した教師画像を生成して、格納部160に保存する。S207では、表示制御部120が、教師画像を画面に表示制御する。ユーザは教師画像が意図した出来栄えになっているか確認する。S208では、情報処理装置が、入力されたすべての画像に対して教師画像が生成されたかを判断する。すべての教師画像が生成された場合、情報処理装置は処理を終える。教師画像が生成されていない画像が残っている場合はS202に戻る。以下、図5に示す検出対象物が写った画像から教師画像を生成するイメージを説明する図を使って説明する。
S201では、入力部110が、対象物が写った画像を1枚以上入力する。図5(A)における画像310には、検知対象である犬311が写っている。ここで入力された画像は、格納部に送られる。ユーザは入力したい画像のファイルを指定する。もしくは画像が格納されているフォルダを指定する。
S202では、表示制御部120が、画像310を画面に表示させる。図5(A)は画像310を表示させたイメージである。ユーザは検知対象(犬)が写っているか確認できる。検知対象が写っていない場合や教師画像に相応しくないと判断した場合は、ユーザはその画像を使わないよう指示を行い、その指示を入力操作部が受け付ける。
S203では、入力操作部130が、入力操作によって抽出された閉領域を検知対象領域(第1領域)として取得し、トレースデータ(第1領域を示す画像)を生成する。入力操作とは、具体的には、ユーザが画面に表示された画像を参照して、画像に写った検知対象の輪郭位置を、ユーザがマウスやペンタブレットなどの入力装置を使ってなぞる操作を指す。入力操作された結果から生成されるデータがトレースデータである。なお、トレースデータの範囲は、輪郭抽出のときと領域抽出のときでは異なる。輪郭抽出のとき、トレースデータの範囲は、入力を行った位置やその周辺領域とし、具体的には幅が1画素の輪郭や、その輪郭に膨張処理を適用して拡げた領域とする。領域抽出のとき、トレースデータの範囲は、入力を行った位置で囲まれた閉領域や、閉領域に膨張処理を施して得られる領域とする。入力操作部130は、トレースデータを生成し、決定部に出力する。
S204では、入力操作部130が、ユーザによる入力操作が終了したか否かを判断する。入力操作の終了指示は、例えば、ユーザによって、画面に表示された終了ボタンが押されることによって受け付ける。終了指示がない間、すなわち入力操作が続行する場合は、S202に戻る。入力操作の終了指示があった場合は、S205に進む。
S205では、決定部140が、対象物の領域に対応する検知対象領域(第1領域)に基づいて、検知対象領域の外縁である曖昧領域(第2領域)を決定する。本実施形態では、トレースデータに基づいて、所定の基準によって教師画像の曖昧領域(第2領域)を決定するための曖昧領域データを生成する。基準に基づいて第2領域(第1領域の外縁)を決める方法として、膨張処理を行う方法、トレースデータの位置からの距離を利用する方法、または画像の解像度に関する情報を利用する方法を説明する。
膨張処理を行う方法は、検知対象領域のうち輪郭の画素に隣接する画素を選択する。隣接する画素だけではなく、幅n画素分(nは2や5等の実数値)だけ膨張させても良い。膨張させる幅は、予め設定した値を用いる。なお、検知対象領域の面積に応じた値や、ユーザの好みの値で良い。
トレースデータの位置からの距離を利用する方法として、教師画像のうち、トレースデータの検知対象領域(第1領域)からの距離が所定の値より小さい領域を曖昧領域(第2領域)に決定する。すなわち、距離のパラメータを設定し、トレースデータの範囲から一定の距離以内の領域は曖昧領域とする。例えば、距離のパラメータを5画素とすると、輪郭抽出の場合も領域抽出の場合も、トレースデータの位置を中心とした、幅10画素の領域が曖昧領域となる。領域抽出の場合は、トレースデータの外側に向かって5画素離れたところまでの領域を曖昧領域とする。
また、画像の解像度に関する情報を利用する方法として、距離のパラメータを、画像の解像度により変更する。画像を拡大しながら入力するときは、拡大しないときに比べて、ユーザは細かいところまで見ながら入力できる。このため、例えば、画像を2倍に拡大して入力するときには、距離のパラメータを、拡大せずに入力するときの0.5倍に設定すると良い。
決定部は、曖昧領域決定生成後、曖昧領域の位置を示す画像である曖昧領域データを生成し、曖昧領域データを生成部に出力する。曖昧領域データを、表示部に送り、ユーザに確認および修正させることもできる。一定のルールで曖昧領域を決定することによって、ユーザは曖昧領域を確認するもしくは少し修正を加えるだけで容易に教師画像を生成することができる。
S206では、生成部150が、検知対象領域(第1領域)に対して対象物の領域であることを示す正解の教師値(第1の値)を、曖昧領域(第2領域)に対して学習モデルのパラメータの更新を抑制する教師値(第2の値)を、付与した教師画像を生成する。すなわち、入力画像のうち、S203にて得られたトレースデータを基に第1領域に対して正解の教師値を付与する。入力画像のうち、S205にて得られた曖昧領域(第2領域)には中間の教師値を付与する。入力画像のうち、背景である領域には不正解の教師値を付与する。以下、具体的な手順を述べる。初めに、入力画像の全画素に背景領域を示す値0(0以外でも任意のラベルで良い)を格納しておく。これを初期値の教師画像とする。その後、初期値の教師画像にトレースデータと曖昧領域をそのまま重畳する。重畳前後に教師画像の検知対象領域、曖昧領域、背景領域に異なる値を設定しても良い。トレースデータと曖昧領域の範囲に重なりがあるときは、一方を重畳した後、他方を重畳することで上書きする。教師画像の曖昧領域と検知対象領域が決まることで、いずれにも該当しない領域が背景領域として定まる。さらに生成部150は、画素値(教師値)を決める。例えば、検知対象領域には1、背景領域には0、曖昧領域には0.5といった教師値を与える。曖昧領域の画素値は、検知対象領域と背景領域に対して中間的な実数値を設定する場合、検知対象領域または背景領域からの距離に応じて連続的な教師値を設定しても良い。具体的には、曖昧領域のうち検知対象領域に近い領域は、背景領域に近い領域より検知対象の可能性が高いと解釈し、教師画像の正解の教師値に近い値(例えば0.8)を設定する。反対に、曖昧領域データのうち背景領域に近い領域には、教師画像の不正解の教師値に近い値(例えば0.2)を設定する。このような教師画像を生成することによって、精度良く対象物と背景を識別できる。このとき、曖昧領域を検知対象領域の輪郭に沿って等高線状に分割し、分割した領域ごとに異なる値を設定しても良い。
以下に、図4を用いて、犬を検知対象とした場合、S203からS205に対応する処理の流れを説明する図例を示す。図4(A)の画像310は、データ格納部から犬の画像を読み込み、表示部にて表示画像に出力したイメージである。図4(B)と図4(C)はそれぞれ、輪郭抽出と領域抽出をしたときの表示画像のイメージである。画像320は輪郭抽出結果を示すトレースデータである。画像330は画像320に基づいて決定された曖昧領域を含む画像である。画像340は領域抽出された結果を示すトレースデータである。画像350は画像340に基づいて決定された曖昧領域を含む画像である。
まず図4(B)の画像320と330を用いて、輪郭抽出の場合について述べる。ユーザは図4(A)の画像310を見ながら、検知対象311の輪郭に沿ってマウスポインタ312を使って入力操作を行う。画像320に示す輪郭321のようなトレースデータを入力結果とする。ユーザの入力結果であるトレースデータに基づいて、曖昧領域決定部では、トレースデータに対して一定画素数分だけ膨張処理を行い、その領域を教師画像の曖昧領域データとして決定する。その後、生成部で曖昧領域データとトレースデータを基に教師画像が作成される。表示部では、画像と教師画像を重畳した表示画像330をユーザに提示する。ユーザは曖昧領域331が意図した領域をカバーできているか確認できる。
次に、図4(C)の画像340と350を用いて、領域抽出の場合について述べる。輪郭抽出の時と同様に、ユーザは画像310を見ながら、検知対象311の輪郭に沿ってマウスポインタ312を使って入力操作を行い、入力した領域で定義される閉領域がトレースデータとなるように設定する。ユーザの入力により、表示画像340に示すトレースデータ341が、検知対象のトレースデータとして設定されたとする。決定部では、トレースデータ341を膨張させ、膨張した領域とトレースデータ341の差分を曖昧領域データとする。また、領域341の輪郭領域を膨張させ、その領域を曖昧領域データとしても良い。その後、生成部で曖昧領域データとトレースデータを基に教師画像が作成される。表示部では、画像と教師画像を重畳した表示画像350を表示し、ユーザに曖昧領域351に教師画像の曖昧領域の範囲が、ユーザの意図する領域をカバーしているかを確認させる。
S207では、表示制御部120が、教師画像を画面に表示制御する。ユーザは生成された教師画像を確認できる。このとき、検知対象領域(第1の領域)と曖昧領域(第2の領域)とを異なる色で表示しても良い。ユーザは曖昧領域の範囲を確認しやすい。また、S205で決定部140が複数の曖昧領域を決定しても良い。このとき、表示では、複数の曖昧領域を同時に表示しても良いし、切り替えて表示しても良い。複数の曖昧領域を同時に重畳することによって、複数の曖昧領域の候補を提示する方が、1つだけ提示するよりもユーザはとって好ましい曖昧領域を選択できる。また、ユーザが曖昧領域の幅を変更できるように、曖昧領域の幅の候補を同時に表示させても良い。この場合も複数の曖昧領域の幅を提示する方が、1つだけ提示するよりもユーザにとって好ましい曖昧領域の幅を選択することができる。その他、後述する処理によって、教師画像を修正しても良い。
S208では、情報処理装置が、入力されたすべての画像に対して教師画像が生成されたかを判断する。すべての教師画像が生成された場合、情報処理装置は処理を終える。教師画像が生成されていない画像が残っている場合はS202に戻る。
以上の処理により1枚の画像に対して教師画像の曖昧領域を決定できる。ただし、情報処理装置100は必ずしもこのフローチャートで説明するすべての処理を行わなくても良い。S206における教師画像を生成して保存する処理は、S204をスキップし、S203でユーザがトレースデータを入力した直後にS205と同時に実行しても良い。また、複数の画像を扱うときは上記の一連の処理を画像の数だけ繰り返す。この場合、全画像に対してS201からS203までの処理をまとめて実行してユーザの入力操作を先に済ませ、その後S205からS207までの処理を各画像に対して実行しても良い。はじめにすべての画像を読み込む場合は、S204からS202に戻る。画像を1枚ごとに読み込んでトレースデータ入力の処理をする場合は、S204からS201に戻る。
なお、生成された教師画像に対して修正を加えても良い。図2に示す修正部170では、トレースデータ、曖昧領域、教師画像について、ユーザから修正操作を受ける。以下に、修正部で受ける操作および処理について説明する。修正は、元の教師画像を入力し直す手段と入力済みの領域を座標変換により変形する手段によって実行できる。
図5には、輪郭抽出のときに教師画像を修正する例を示す。画像410に示す輪郭331は、教師画像の検知対象領域または曖昧領域を示すものとする。ここでは、輪郭331のうち、矩形411内の輪郭412を画像420に示す矩形421内の輪郭422のように修正する方法を、画像430、440、450を用いて示す。元のデータを入力し直す手段を説明する。具体的には、元のデータを消してから描く方法と、元のデータに描き足したら元のデータを消す方法がある。
まず、元のデータを消してから描く方法について説明する。曖昧領域を削除する際には、表示されている画像上に消しゴムツールを用意しておいて、修正したい領域を消す。画像430は削除操作を行ったイメージであり、マウスポインタ413で削除ボタン432をクリックした後、矩形411に含まれる輪郭をなぞることで削除を行った結果を表している。消しゴムツールの他、削除したい領域について、領域指定の操作をしてから削除操作を行うこともできる。
領域指定の操作としては、画像450に示すように、ユーザがマウスポインタ413を指定ボタン453にかざしてクリックし、領域411の左上の頂点から右下の頂点までマウスをドラッグすることで矩形領域411を指定する。その他にも、ユーザに、検知対象の輪郭線上に複数の点を指定させて、点に挟まれた輪郭領域を指定できるようにしても良い。
削除操作としては、指定領域をマウスポインタ413で指定した上で、キーボードのdeleteキーを押す操作を実行する。削除後、マウスポインタ413を用いて新たな輪郭線を描くことで、画像420の輪郭422に示すように、教師画像を修正する。
次に、描き足した後に元のデータを消す方法を説明する。画像440に示すように、元のデータに、破線で示すトレースデータ443を新たに描き足し、トレースデータ443に基づいて曖昧領域の範囲を決め、描き足した領域の近くにある輪郭を自動で削除する。例えば、元の教師画像331の曖昧領域と描き足したトレースデータ443の交わる点441、442に挟まれた範囲にある元の教師画像の曖昧領域を削除することで、画像420に示すような教師画像を作成する。
2つ目の入力済みの領域を変形する手段を説明する。この方法では、画面上でユーザが修正したい領域を好きな方向に引っ張る操作をし、それに応じて曖昧領域や検知対象領域に対して拡大・縮小などの座標変換を行う。例えば、ユーザは画像450にて矩形411を指定する操作をした後、領域を指定したら、ユーザは矩形411の辺や頂点、または輪郭412を選択して、マウスポインタ413を使い、右上方向にドラッグする操作を行う。この操作により、指定領域以外の輪郭は固定したまま、選択領域を拡大する座標変換を行うことで輪郭412を輪郭422のように変形する。以上の方法で教師画像を修正できる。また、上記の例では、輪郭抽出の場合の修正方法であったが、これらの方法は領域抽出の場合の修正操作にも適用できる。
学習部180では、生成された教師画像に基づいて学習モデルのパラメータを更新する。パラメータの更新とは、学習モデルの入力側の層に画像を設定し、出力画像の層に画像に対する正解値を設定し、ニューラルネットワークを経由して算出される出力が設定した正解値に近づくようにニューラルネットワークのパラメータを調整する処理を指す。正解値には、教師画像の画素毎に与えられた教師値を利用する。教師画像を対象領域、曖昧領域、背景領域の3クラスに分けて学習することによって、学習モデルの精度を向上できる。曖昧領域についての学習を抑制する方法を以下で説明する。
曖昧領域を設定した教師画像は、誤差関数の式の設定に利用できる。誤差関数は、学習により学習モデル(識別器)のパラメータが適切な値になるように調整する働きを持つ関数である。識別器の出力値と教師画像の画素値の誤差が大きい時、大きな値を返すことで、パラメータを大きく変えるように指示する。逆に出力値と教師画像の画素値の誤差が小さい時小さな値を返し、パラメータをあまり大きく修正しないようにする。ここでの識別器は、画像を入力すると、画像の各画素に対して0から1の予測値を出力する。ある画素の予測値が0に近い場合、その画素が背景である可能性高いと予測したことになる。反対に、ある画素の予測値が1に近い場合、その画素が検知対象領域である可能性が高いと予測したことになる。ここでは、教師画像の曖昧領域の情報を誤差関数に利用することで効果的な学習を行う。
例えば、教師画像の曖昧領域を実数値で設定する場合において、1枚の画像に対する誤差関数は以下のように設定する。
Figure 2019207535
ただし、Eは誤差、iは画像の全画素に割り当てられる画素のインデックス、yは識別の出力値、tは教師画像の画素値、wは重みパラメータ、Nは教師画像1枚の画素総数とする。曖昧領域を含む箇所では誤差関数で大きな値を返さないように設定したいとき、重みパラメータwは、例えば次式のように設定する。
Figure 2019207535
重みパラメータwを教師画像のある画素が曖昧領域データに属さない場合は1と設定し、曖昧領域に属す場合は、1未満の値に設定することで、曖昧領域におけるパラメータ修正への寄与の度合いを下げることができる。
なお、例えば教師画像が十分にある場合は、学習に用いる教師画像をデータサンプリングの時点で選別しても良い。データサンプリングについて説明する。データサンプリングでは、学習を行う前に、学習に用いる教師画像を選別する方法である。教師画像ごとに信頼度という指標を設定して、信頼度がより大きい教師画像を選択する。信頼度は、教師画像における曖昧領域の画素数と画素値を考慮して設定する指標である。曖昧領域の画素数が多いとき、その画像の信頼度は低下する。教師画像の曖昧領域の画素値に実数値を設定する場合における信頼度の式の例を以下に示す。
Figure 2019207535
ここで、rは信頼度、iは画素のインデックス、Nは教師画像1枚の画素総数とする。δは教師画像のラベルによって0から1の範囲で変化するパラメータで、注目画素の曖昧性が低いときには1に近い値となる。δは、教師画像の画素iのラベルをtとし、例えば以下のように設定する。
Figure 2019207535
この例では、教師画像の画素iのラベルが0か1のとき、すなわち検知対象領域か背景領域に属すときにδは1とする。教師画像の画素iラベルが0から1の中間の値のとき、すなわち曖昧領域に属すときには、1より小さい値を設定する。上式により曖昧領域データの値が0または1に近いときには背景領域と検知対象領域のいずれかに近いことから、曖昧領域の中では比較的曖昧性が低いと解釈し、δは1に近い値に設定する。曖昧領域の値が0.5に近いときには、検知対象領域と背景領域から離れていて、曖昧領域の中でも比較的曖昧性が高いと解釈して、δは0に近い値になるように設定する。信頼度がある値より高い画像を選択することで、信頼度が低い画像を除外して学習を行うことができる。また、信頼度の低い教師画像を少なくすることによって、学習効率を向上できる。
データサンプリングと、誤差関数の式の設定の方法は両方行っても良いし、片方のみ実施しても曖昧領域を決定することによる恩恵を受けることが出来る。以上のように、教師画像の曖昧領域の情報をデータサンプリングや誤差関数に利用することができる。なお、上記の処理を画像のうち部分領域画像に対して行っても良い。例えば、1枚の画像をn等分(nは整数)する。数3、数4のNをN/nに置き換える。領域画像毎に信頼度rや誤差Eを取得する。この処理によって効率的に教師画像を利用できる。
その他にも、曖昧領域の情報を使って、画像の領域単位で、検知対象クラスと背景クラスと曖昧クラスに分類する学習を行うことができる。表示部には、検知対象クラスと曖昧クラスの識別結果の一方または両方を画像に重畳した表示画像を切り替えて表示する手段を持たせる。これらの識別結果は、画像に重畳して表示しても良い。さらに、検知対象クラスと曖昧クラスの識別結果を統合する手段を用意しても良い。
以上の説明では、決定部140の処理は、曖昧領域データをユーザの入力したトレースデータに基づいて自動的に設定するものであったが、この処理は手動で行う場合がある。図6を用いてユーザに曖昧領域を手動で設定させる方法を説明する。ここ手動で曖昧領域を設定する場合は、入力操作の前後に、図6(A)に示す表示画面上の操作手段511により、ユーザにトレースデータの周辺に曖昧領域を設定するかどうかを指示させる。では、曖昧領域データの設定の有無を決めさせる手段、ユーザに曖昧領域データの幅を設定させる手段、ユーザに曖昧領域データの画素値を決定させる手段について述べる。まず、曖昧領域データの設定の有無を決めさせる手段について述べる。ユーザは、入力操作の前後に曖昧領域データを設定するかどうかを、表示画面上のツールを使って決定する。具体的には、画像510に示すように、ユーザはマウスポインタ512を用いて表示画面上の曖昧ボタン511を入力操作前にクリックすることにより、これから入力するトレースデータの周辺には曖昧領域を決定する。また、入力操作後に曖昧ボタン511をクリックすることで、直前に入力したトレースデータの周辺に曖昧データを設定することを決める。
また、トレースデータに対して、曖昧領域を設定したい領域を限定的に指定する機能があっても良い。図6(B)に示す表示画面520のように、ユーザはトレースデータを入力した後、マウスポインタ512を指定ボタン521にかざしてクリックし、曖昧領域を設定したい輪郭を含む領域522を選択する。選択方法としては、例えば、領域522の左上の頂点から左下の頂点に向かってマウスをドラッグする方法がある。指定した領域内の教師画像のみを対象として、トレースデータに対して膨張処理を行って得られる領域を曖昧領域データとする。
次に、ユーザに曖昧領域である外縁の幅を設定させる手段を説明する。ここまで示してきた例では、教師画像の曖昧領域は検知対象領域の後に決まるものであったが、同時に決定される場合もある。具体的には、表示画面530に示す例のように、入力時のペンの幅(外縁の幅)を選択させるツールを表示画面に用意する。2点鎖線531に囲まれている領域にある、大きさの異なる円は、ペンの太さを表すものとする。ユーザが使いたいペンの太さをマウスポインタ512で選択した上でトレースデータを入力すると、ペンの太さに応じた幅の曖昧領域データが決定される。入力後にマウスホイールを動かすことで入力したデータの幅を調整できるようにし、気に入った幅が表示されているときにクリックすることで確定する仕様にしても良い。曖昧領域の幅が可変である場合は、画像のシーンに応じて曖昧領域を設定することが出来る為、精度良く教師画像を生成できる。このとき、ユーザの操作により、曖昧領域データを広げる方向を内側、外側、それら両方のいずれにするかを決定する機能を持たせることもできる。具体的には、マウスホイールを動かしている間、上向き矢印キーを押すと曖昧領域データがトレースデータに対して外側に広がり、下向き矢印キーを押すと曖昧領域データがトレースデータに対して内側に広がるようにする。最後に、ユーザに曖昧領域の画素値を決定させる手段を説明する。教師画像の曖昧領域の各画素値を実数で設定する場合、その値を手動で設定する。例えば、表示画面に、ペンの濃さを切り替えられるツールを用意し、入力操作を行わせる。ユーザには、曖昧領域データのうち確信のある領域には濃い色で入力し、確信の低い領域は薄い色で入力するようにさせ、入力時のペンの濃さの情報を教師画像の曖昧領域の画素値に反映する。以上に示したように、手動で教師画像の曖昧領域を決定できる。
<実施形態2>
実施形態1では、トレースデータを用いてルールベースで所定の幅を持つ曖昧領域を決定する方法について述べた。これに対して、実施形態2ではトレースデータと対象物が写った画像に対応づいた情報を用いて統計的に曖昧領域を決定する。すなわち、ユーザの入力したトレースデータと入力された画像に基づいて、検知対象に関する確率マップを生成し、確率マップに1つ以上の閾値を適用して曖昧領域または曖昧領域の候補を決定する。確率マップとは、入力された画像の各領域について、検知対象物が含まれている可能性を確率的に表現した画像である。本実施形態では、検知対象は海とする。曖昧領域を決定する為にトレースデータだけではなく画像の情報も利用することによって教師画像の質が向上する。例えば、実施形態1では、トレースデータから一定の幅で曖昧領域を膨張させていたことに対して、本実施形態では、閾値処理によって曖昧領域を決定するため外縁の幅は領域によって異なる。一定の幅で曖昧領域を設定する場合よりも、背景や対象物の領域を柔軟に回避できるようになる。その結果、より精度のよい教師画像を簡単に生成できる。
図7を用いて、本実施形態の概要を説明する。図7は、検知対象を海とし、確率マップを用いて教師画像の曖昧領域を決定する例を示す。図7(A)に示す画像710は海を撮影した画像で、領域711は空、斜線領域712は海、領域713は砂浜である。海と浜辺の境界の色の変化がなだらかで、目視では境界が見えづらいとする。図7(B)に示す画像710において、ユーザが教師画像の検知対象領域として領域721を入力したとする。本実施形態の情報処理装置は、入力画像とユーザの入力したトレースデータを元に確率マップを生成して、ある閾値より高い領域を曖昧領域として抽出する。図7(C)に示す画像730は確率マップのイメージであり、ある閾値より高い値を持つ領域として、確率マップの領域731を抽出したとする。ユーザの入力したトレースデータ721と確率マップの領域731の差分を曖昧領域として決定し、その後トレースデータと曖昧領域に基づいて教師画像を作成する。図7(D)に示す画像740はユーザに教師画像740を確認させるための表示のイメージである。画像740の領域721は検知対象領域、領域741は曖昧領域を表している。
本実施形態の機能構成例は、実施形態1における図1と同様である。実施形態1と実施形態2の異なる点は、実施形態2では、決定部140が、曖昧領域を決める前に確率マップを生成する点である。詳しい処理は後述する。図8に基づいて情報処理装置が行う処理を説明する。まず、S201では、入力部110が、画像710を入力する。S202では、表示制御部120が、画像710を画面に表示させる。S203では、入力操作部130が、ユーザによって入力されたトレースデータ(閉領域を示す画像)を取得する。図7(B)に示す画像710の領域721が閉領域に対応する。S204では、入力操作部130が、ユーザの入力が終了したか確認し、入力が終わっていない場合はS202に戻る。入力が終わっている場合にはS601に進む。S601では、決定部140が、画像とトレースデータに基づいて確率マップを生成する。確率マップは、画像に基づいて生成されるため、画像に含まれる情報を抽出し、曖昧領域の決定に活用できる。確率マップは、入力された画像の画素毎に、画素と検知対象領域(第1の領域)との距離が小さいほど高い確率が付与される。または確率マップは、入力された画像の画素毎に、検知対象領域に含まれる画素の所定の色と、入力された画像の各画素の色との類似度に応じた確率が、入力された画像に対応して付与される。確率マップの詳しい説明は後述する。S602では、決定部140が、閾値処理を使って、確率が所定の閾値より大きい領域を曖昧領域(第2の領域)として決定する。S206では、生成部150が、教師画像740を生成する。また、格納部160に生成した教師画像を保存する。S207では、表示制御部120が、教師画像740を画面に表示させる。これによってユーザは生成した教師画像を確認する。
実施形態1と実施形態2では決定部140の処理S601とS602が異なるため、その点について説明する。S601では、決定部140が、ユーザの入力に基づいて確率マップを生成する。確率マップは、入力された画像の領域毎に、検知対象領域(第1の領域)との距離が小さいほど高い確率が付与された画像である。確率マップの生成する方法を2つ説明する。ひとつの方法は画素の位置と色情報やテクスチャ情報を利用する。もうひとつの方法はトレースデータの情報を利用する。
まず、画素の位置と色情報やテクスチャ情報を用いる方法について述べる。この方法では、検知対象領域と背景領域の境界から離れた位置にある画素は曖昧ではないと解釈し、曖昧でない領域の画素情報を利用する。以降、境界から所定の距離だけ離れた位置にある領域を、「第4の領域」と記載する。第4の領域は、検知対象領域と背景領域の境界に存在しないため曖昧領域でないと解釈できる。画像全域の各画素が、第4の領域の検知対象領域と背景領域の画素のうち、どちらと似ているかを調べる。例えば、第4の領域の色情報やテクスチャ情報の平均と、画像の各画素の色情報やテクスチャ情報の類似度を求め、得られる類似度のマップを、その画像の確率マップとする。
次に、トレースデータを使って、検知対象領域からの距離情報を利用する方法について述べる。検知対象領域の輪郭に含まれる画素からの距離を表現した画像を距離変換画像と記載する。距離変換画像は、画像と同じサイズのデータであり、検知対象領域からの最短距離の情報を格納した画像である。具体的には、検知対象領域の画素には0を格納する。検知対象領域の外側、すなわち閉領域外である各画素において、検知対象領域とから一画素離れた画素には1、二画素離れた画素には2、というように、検知対象領域から離れる程大きな値を格納する。距離変換画像を作成する方法は、例えば、はじめに検知対象領域の画素には0、その他の画素にはNullを格納しておき、その後、画素ごとに検知対象領域からの最小距離を算出して格納することで作成する。距離情報は、実施形態1の中でルールベースにより曖昧領域データの範囲を決める方法でも用いたが、ここでは距離情報を確率マップに反映する。検知対象領域の位置から近い領域は対象物がある可能性が高く、離れた領域は対象物の可能性が低いとみなし、距離に応じた確率を確率マップの各画素に設定する。ここでは、閉領域外の領域ごとに対象物が含まれる確率を、画素値で示した距離に反比例して設定する。つまり、画素値が小さいほど、大きい確率になる。このように、画素情報、検知対象領域からの位置情報を用いて確率マップを生成することができる。
または、第4領域の色情報から、その画像内で検知対象領域と背景領域の占める領域の大きさの比を予測し、その比に基づいて2つの領域の境界線の位置を決定することもできる。例えば、画像内の検知対象領域と背景領域の各領域の大きさの比が2:8の場合、トレースデータに対して内側に2画素離れた箇所から外側に8画素離れた箇所までの範囲を曖昧領域データの領域として設定する。なお、これらの情報は組み合わせて使用することもできる。1つの方法として、これらの方法で得られる確率マップを用意し、対応する画素ごとに積を求めた結果を新たに確率マップとすることができる。
他の方法として、画像から得た情報を組み合わせた統計モデルを用いて確率マップを作成することができる。上記の方法で得られる確率マップを作成する。例えば、数式5に示す式のモデルを構築する。数式5は、ある画素について、画像から得た各情報に基づいて曖昧領域の教師値を求める式である。
Figure 2019207535
ただし、yはモデルの出力値であり、注目画素に対する確率マップ上の値を意味する。nはモデル構築に利用する情報の種類数、iは各情報に対応するインデックス、xは注目画素において各情報から求めた確率を表している。例えば、i=0を画像から得た画素の色情報、i=1をトレースデータから得た距離情報とする。画像やトレースデータから得られる情報を複数利用することによって、教師画像の精度を向上できる。なお、aは各情報の重みパラメータを表しており、経験的に決定して良い。
S602では、確率マップを生成した後、決定部140が、確率が所定の閾値より大きい領域を曖昧領域(第2の領域)として決定する。確率マップ上の、画素値がある閾値より高い領域を切り出し、その後教師画像の曖昧領域を決める。1つの方法として、確率マップから切り出した領域と教師画像の検知対象領域の差分を曖昧領域データとみなし、教師画像に重畳する。2つ目の方法として、切り出した領域を全て曖昧領域データとみなしてそのまま教師画像に重畳する。前者の場合は、ユーザが入力したトレースデータの検知対象領域は曖昧領域データに上書きされないため、ユーザの入力したトレースデータは完全に依存することになる。反対に、後者の場合には、トレースデータは曖昧領域に上書きされるため、ユーザが入力した領域を完全に依存しない。また、教師画像に曖昧領域データを重畳するときには、曖昧領域データの値をそのまま重畳しても良いし、一定の値に書き換えた上で重畳しても良い。
図9に示す画像を用いて、確率マップに1つ以上の閾値を適用し、各閾値による閾値処理により抽出される領域を曖昧領域データの候補とみなし、候補の中からユーザに曖昧領域データを選ばせる方法を示す。この例でも、検知対象は海とする。画像810は確率マップを表しており、図7の表示画像720にユーザが領域721にて教師画像の入力をした後に生成されたものとする。また、確率マップを生成した後、ここでは閾値を2種類適用するものとし、第一の閾値は第二の閾値より高いとする。第一の閾値より高い値を持つ画素のある領域として領域811、第二の閾値より高い値を持つ画素のある領域として領域812が抽出されたとき、領域811、領域812と領域721の差分を曖昧領域データの候補とする。曖昧領域データの候補が決まったら、表示画像上でユーザに、候補から曖昧領域データを選ぶよう促す。
ユーザに曖昧領域データを選ばせる上で、候補を切り替えて表示する方法と同時に表示する方法があり、それぞれ図9の(B)、(C)に示す。曖昧領域データの候補を切り替えて表示する方法について、(B)を用いて説明する。画像820、830は切り替え操作を行う際の表示画像のイメージである。画像820の領域822、画像830の領域831はそれぞれ、確率マップの領域811、812から求めた曖昧領域データの候補である。以上の説明では、確率マップに対して1つの閾値を適用して曖昧領域データを自動で決定したが、確率マップから曖昧領域データの候補を求め、候補の中からユーザに曖昧領域データを選ばせることもできる。表示部では、ユーザからの操作により、曖昧領域データの候補の写った表示画像820と830を交互に切り替えて表示する。切り替え時の操作方法として、マウスホイールを動かすことで切り替える方法や、表示画面上に切り替えボタンを用意しておいて、切り替えボタンがマウスでクリックされた際に切り替える方法がある。
次に、同時に表示する場合について、(C)を用いて説明する。画像840は、複数の曖昧領域データの候補を1つの画面に表示したイメージである。領域841、842はそれぞれ、(B)に示した曖昧領域データの候補822、831に相当するデータであり、表示画像840ではこれらを重畳して表示している。領域841と領域842は、異なる色で表示することで、ユーザにとって区別がつきやすいようにする。ユーザは曖昧領域データの候補からの中で気に入ったものがあれば、曖昧領域データを1つ以上選択して確定する。
(B)に示す切り替え表示の場合には、画面に気に入った曖昧領域データの候補が表示されたとき、マウスポインタ823で確定ボタン821をクリックする。これによって曖昧領域データの候補の中からデータを1つ以上選択し、曖昧領域データを確定する。
また、(B)と(C)のいずれの場合でも、ユーザが選択した曖昧領域データの候補にマウスポインタ823をかざしてクリックすることで曖昧領域を決定するようにしても良い。なお、ユーザは、曖昧領域データのトレースデータの中から、1つも選ばない、という選択をすることもできる。
<実施形態3>
実施形態2では、教師画像の曖昧領域を、確率マップを生成することにより決定する方法を説明した。実施形態3では、確率マップを使用する点では実施形態2と同じであるが、ユーザからの修正操作を受け、修正に関する情報を、確率マップに反映して教師画像の曖昧領域を決定する。本実施形態では、検知対象は海とする。はじめに、本実施形態の概要を説明する。本実施形態では、実施形態2で説明した、画素情報を利用して確率マップを作成する。
決定部140では、検知対象領域と背景領域の境界から離れた、第4領域の画素情報を基準とし、その基準と画像内の各画素の類似度を求めて確率マップとする。ここでの基準とは、教師画像を作成済みの画像うち、第4領域の画素値情報から得る情報とし、例として、第4領域であり、かつ教師画像の検知対象領域に相当する領域の画素値の平均値が挙げられる。ユーザがある教師画像の修正を行うと、基準を決める上で用いていた第4領域が変化するため、最新の第4領域に基づいて基準を更新する。既に教師画像を作成した画像については、確率マップを生成し直し、基準の更新に伴い、曖昧領域データを再度作成する。一方、まだユーザが教師画像の入力を行っていない画像については、最新の基準に合わせて確率マップを作成するようにする。
図10に、実施形態3の情報処理装置が実行する処理の流れを示す。1枚の教師画像に修正すべき箇所が複数存在する場合を説明する。実施形態3は、実施形態2とはユーザの修正を受けて確率マップを生成し直す点で異なる。まず、S201では、入力部110が、画像710を入力する。S202では、表示制御部120が、画像710を画面に表示させる。S203では、入力操作部130が、ユーザによって入力されたトレースデータ(閉領域を示す画像)を取得する。S204では、入力操作部130が、ユーザの入力が終了したか確認し、入力が終わっていない場合はS202に戻る。入力が終わっている場合にはS901に進む。上記に述べたように、本実施形態では画素情報を用いて確率マップを生成するため、ユーザの入力操作後、S901では、決定部140が、画素情報から確率マップを求めるための基準を決定する。続いて、S601で決定部140が、画像とトレースデータに基づいて確率マップを生成する。S602では、決定部140が、閾値処理を使って、確率が所定の閾値より大きい領域を曖昧領域(第2の領域)として決定する。S206で教師画像を生成する。S207で表示制御部120が教師画像を表示制御する。その後、S902で、修正部170がユーザによって教師画像の修正操作を受け付ける。S903で、修正部170は、教師画像の修正が全て終わっているかを確認する。つまり、修正操作の有無を判断する。修正操作がなかった場合には、処理は終了とする。修正操作があった場合にはS901に戻る。つづいて修正された教師画像の情報に基づいて確率マップの基準を修正する。続いて、修正された基準を使って、S601で確率マップを再生成し、S602で決定部140が曖昧領域を再度決定し、S206で生成部が教師画像を再生成する。
以上の方法で、1枚の画像に複数のトレースデータがあるときユーザの修正を踏まえて修正を行うことができる。複数の画像に対して修正を行うときには、1枚以上の教師画像を修正した時点で確率マップの基準を更新し、その基準を用いて他の画像の確率マップを生成することで、曖昧領域を決定するようにして良い。また、複数の画像のうち1枚ごとに読み込んでトレースデータを入力する場合は、S204のNoはS201に戻る。はじめに全ての画像を読み込む場合は、S204のNoはS202に戻る。
実施形態3では、実施形態2と同様に検知対象は海とし、海と浜辺の境界において教師画像の曖昧領域データを設定する。図11を用いて、ユーザの修正を受けて確率マップを再度生成する処理を説明する。画像1010、1020と画像1030、1040は異なる画像に対する教師画像を表している。ここでは、一方の教師画像1010を1020のように修正することにより、もう一方の教師画像1030が1040のように更新される処理の流れを説明する。
はじめに、データ格納部には、教師画像1010と教師画像1030が格納されているものとする。これらの教師画像において、領域721、領域1031は教師画像の検知対象領域、領域1011、領域1032は教師画像の曖昧領域とする。修正部170は、ユーザによる教師画像1010に対する修正操作を受け付ける。教師画像1010の曖昧領域1011の一部をユーザが削除し、教師画像1020に示す領域1021のように修正したとする。
この修正操作により、決定部140は、確率マップを生成する上での基準を決定する。ここで、教師画像1030を作成する上で生成した確率マップのイメージを画像1050に示す。初めの処理では、決定部140が確率マップから初期の閾値を使った閾値処理により領域1051を抽出し、教師画像1030の曖昧領域1032を決定する。S902において、修正部170がユーザによる教師画像1010の修正操作を受ける。基準を決める際に用いていた第4領域の範囲が変化することから、最新の第4領域を用いて基準を更新し、その基準を基に確率マップを更新する。画像1060は確率マップ1050から更新された確率マップのイメージである。閾値処理により、抽出された領域1061と教師画像の検知対象領域1031の差分から、曖昧領域データが決定する。結果として、画像1040に示す領域1041が新たに教師画像の曖昧領域として決定され、教師画像が更新される。
ユーザに最新の教師画像を確認させる際には、教師画像を表示画像に1枚ずつ表示しても良く、表示画像上に同時に表示しても良い。
以上の方法により、ユーザの修正を受けて、他の教師画像を更新することができる。
<実施形態4>
実施形態4では、入力する対象やユーザによって、曖昧領域の設定の仕方に一定の規則性があることを考慮して、ユーザの操作の規則性を統計的に分析した傾向情報を取得し、ユーザの好みに合うように曖昧領域を決定する方法を示す。傾向情報とは、画像、対応する教師画像の検知対象領域、曖昧領域およびその属性から構成されるデータセットのことである。その他にも、曖昧領域の属性と画像特徴量に関する回帰分析による関係式や相関性に関する統計量を傾向情報として良い。なお、傾向情報取得部には、これらの傾向情報を求めて蓄積する記憶手段を持たせるものとする。
実施形態4では、検知対象はコンクリート構造物の表面に発生するひび割れとする。トンネルなどの構造物のコンクリート壁面の劣化を検査するインフラ点検では、コンクリート壁面を撮影した画像からひび割れ等の異常領域の大きさを推定する。コンクリート構造物を撮影した画像において、ひび割れは細長いため、ひび割れが存在していることは分かっても、実際にひび割れが存在する位置と人手で入力したトレースデータの位置には、ずれが生じやすい。また、暗い壁にあるひび割れなど、コントラストが小さい画像では、入力する際には正確な位置を定めることは一層難しい。このため、曖昧領域を自動で決定することによって、学習において正解か不正解か判断が難しい領域について、学習のパラメータに影響しない教師画像を生成できる。また、ユーザにとっては、ある程度の量の教師画像を生成すれば、あとは情報処理装置がその教師画像に近い教師画像を生成できるようになるため、手間がかからない。
図12を用いて、ユーザの操作傾向を取得しながら曖昧領域を決定する例を説明する。画像1310、1320、1330はひび割れの写った異なる画像を表している。画像1320は夜間に撮影または暗い箇所を撮った画像であるため、画像1310と比較して全体的に暗い(輝度が低い)画像になっているものとする。また、画像1330は、画像1310と画像1320の中間くらいの明るさであるとする。画像1340、1350、1360はそれぞれ、画像1310、1320、1330に対応する教師画像とする。実線1311、1321、1331は画像上のひび割れとする。実線1321は、画像1320が暗いため、画像1310における実線1311よりユーザにとって確認しづらいことがわかる。実線1341、1351、1361はユーザが入力した、教師画像の検知対象領域とし、それらの周辺の領域1342、1352、1362は曖昧領域とする。この例では、傾向情報取得部が取得する情報は、画像1310、1320に対してユーザが教師画像1340、1350を作成する操作内容に基づき対応する傾向情報であって、記憶手段に蓄積されている傾向情報の属性値を参照する。そして、新たな画像1330の教師画像を作成する際に、傾向情報を利用して、ユーザの傾向に合う曖昧領域を決定する。まず、傾向情報取得部では、画像1310、1320のコントラストと教師画像1340、1350の曖昧領域データ1342、1352の幅を求め、コントラストと曖昧領域データの幅の関係を調べる。この結果、画像のコントラストと曖昧領域データの幅に相関性があり、コントラストが小さい時にはユーザが曖昧領域データの幅を広く設定する傾向があることが分かったとする。傾向情報取得部では、傾向情報の属性を参照してコントラストと曖昧領域データの幅の間に成り立つ関係式を求め、その情報を決定部に送る。次に、取得部で、新たな画像1330に対して、ユーザは表示画像上でひび割れのある領域1331に入力操作を行う。決定部では、画像1330からコントラストを求め、傾向情報の関係式にコントラストを入力し、曖昧領域の幅を算出する。得られた値の画素数分だけトレースデータに膨張処理を施し、曖昧領域データを作成する。その後、生成部で、トレースデータと曖昧領域データの情報に基づいて教師画像1360を作成する。教師画像1360の実線1361は検知対象領域であり、その周辺の1362は曖昧領域を表している。
実施形態4における構成を図13に示す。本実施形態における情報処理装置の構成は、図1に傾向情報取得部1110を加えた構成から成る。傾向情報取得部1110は、入力操作部130と修正部170で操作を受けると、傾向情報を抽出し、決定部140に送る機能を持つ。傾向情報取得部の処理内容を説明する。傾向情報取得部は、取得部と修正部から操作を受けるタイミングで、画像や教師画像を用いて傾向情報を抽出する。傾向情報は、決定部で利用するために取得するデータであり、ユーザに1枚以上の画像に対して入力操作や修正操作を行わせる際に取得できる。傾向情報に定義される対象の属性には、例えば、教師画像の曖昧領域の広さ、曖昧領域のトレースデータに対する向き、確率マップの閾値があり、それぞれについて以下に説明する。
実施形態4の情報処理装置が実行する処理の流れを図14に示すフローチャートを用いて説明する。図14(A)は、準備段階で複数の画像から傾向情報を収集するための処理を説明するフローチャートである。図14(B)は、傾向情報を使って曖昧領域を決定する処理を説明するフローチャートである。ここでは、傾向情報を取得するための画像群と、傾向情報を用いて正解データを作成するための画像群を予め用意して、前者を(A)のフローに適用し、後者を(B)のフローに適用するものとする。基本的な処理の流れは、図2に示した実施形態1のフローチャートと同じであるが、傾向情報を取得して曖昧領域データの決定に利用する点で異なる。ここでは、複数の画像を対象とした処理の流れを説明する。
まず、図14(A)のフローチャートを説明する。S201からS208までは画像に対して教師画像を生成する処理であり、実施例1のフローと同様である。そのため概要のみ説明する。S201では、入力部110が、画像を入力する。S202では、表示制御部120が、入力された画像を画面に表示させる。S203では、入力操作部130が、ユーザによって入力された画像1310における検知領域である実線1341をトレースデータ(第1領域)として取得する。S204では、入力操作部130が、表示中の画像1310に対するトレースデータの入力が終了したかを判断する。終了指示がなく、入力操作が続行する場合は、S202に戻る。入力操作の終了指示があった場合は、S205に進む。S205では、決定部140が、S203でユーザの入力したトレースデータに基づき曖昧領域データを生成する。S206では、生成部150が、入力された画像の各画素または領域に、正解、曖昧、不正解の3つの教師値を付与した教師画像を生成して、格納部160に保存する。S207では、表示制御部120が、教師画像を画面に表示制御する。ユーザは教師画像が意図した出来栄えになっているか確認する。S208では、情報処理装置が、入力されたすべての画像に対して教師画像が生成されたかを判断する。教師画像が生成されていない画像が残っている場合はS202に戻る。すべての教師画像が生成された場合はS1201に進む。S1201では、情報処理装置100が、入力されたすべての画像について教師画像生成が完了したかを判断する。入力された画像に対応する教師画像が格納部160に保存されているかを判断する。不足がある場合はS202に戻る。入力されたすべての画像に対応する教師画像が生成されていれば、S1202に進む。S1202では、傾向情報取得部1110が、複数の教師画像から傾向情報を取得する。詳しい処理内容は後述する。なお、画像を1枚ごとに読み込んでトレースデータを入力する場合は、S204のNoはS201に戻る。はじめに全画像を読み込む場合は、S204のNoはS202に戻る。
次に、図12(B)を用いて、複数の画像を対象として、傾向情報を用いて教師画像を生成するための処理の流れを説明する。S201からS204、S206,S207の処理は、実施例1のフローと同様で、概要のみ説明する。実施例1と異なる点は、S1203で曖昧領域を決定する際に、傾向情報を利用する点である。S201では、入力部110が、画像を入力する。S202では、表示制御部120が、入力された画像を画面に表示させる。S203では、入力操作部130が、ユーザによって入力された画像1310における検知領域である実線1341をトレースデータ(第1領域)として取得する。S204では、入力操作部130が、表示中の画像1310に対するトレースデータの入力が終了したかを判断する。終了指示がなく、入力操作が続行する場合は、S202に戻る。入力操作の終了指示があった場合は、S1203に進む。S1203では、決定部140が、傾向情報に基づき曖昧領域を決定する。図12を用いて説明すると、例えば、画像1330は、画像1310と画像1320の中間の明るさなので、曖昧領域の幅を幅1342と幅1352の中間である幅1362に決定する。S205の詳しい処理は後述する。S206では、生成部150が、入力された画像の各画素または領域に、正解、曖昧、不正解の3つの教師値を付与した教師画像を生成して、格納部160に保存する。S207では、表示制御部120が、教師画像を画面に表示制御する。ユーザは教師画像が意図した出来栄えになっているか確認する。S208では、情報処理装置が、入力されたすべての画像に対して教師画像が生成されたかを判断する。教師画像が生成されていない画像が残っている場合はS202に戻る。すべての教師画像が生成された場合はS1201に進む。S1201では、情報処理装置100が、入力されたすべての画像について教師画像生成が完了したかを判断する。入力された画像に対応する教師画像が格納部160に保存されているかを判断する。不足がある場合はS202に戻る。入力されたすべての画像に対応する教師画像が生成されていれば、処理を終了する。
以上が基本的な処理の流れであるが、処理の順序はこれに限定されない。他の実施形態と同様に、S201からS204までの入力に関する処理を行ってから、S205からS207までの曖昧領域の決定に関する処理をまとめて行って良い。画像を1枚ごとに読み込んでトレースデータを入力する場合は、S204のNoはS201に戻る。はじめに全画像を読み込む場合は、S204のNoはS202に戻る。ただし、実施形態4では曖昧領域データに関する処理を行うときには、入力済みのデータを、傾向情報を取得する際に使用するデータ群と、傾向情報を使用して曖昧領域を決定するデータ群の2つに分ける必要がある。前者のデータ群に対して先に曖昧領域データを作成する処理を一通り実施し、そこで得られる情報を用いて傾向情報を取得した上で、傾向情報を使って後者のデータ群の曖昧領域データを作成する。
S1202における傾向情報取得部1110の処理内容を説明する。傾向情報取得部1110は、入力操作部130と修正部170から入力操作を受け取ると、画像や教師画像を用いて傾向情報を抽出する。傾向情報は、決定部で曖昧領域を決定するために取得するデータであり、ユーザに、1枚以上の画像に対して、検知対象領域の入力操作や修正操作を行わせる際に取得できる。傾向情報に定義される対象の属性には、例えば、教師画像の曖昧領域の広さ、曖昧領域のトレースデータに対する向き、確率マップの閾値があり、それぞれについて以下に説明する。
まず、1つ目の教師画像の曖昧領域の面積の情報について説明する。これは、ユーザがある検知対象に対して最終的に決定する曖昧領域の面積に関する情報である。曖昧領域の面積の情報には、曖昧領域自体に関する情報と、曖昧領域と画像に関する情報がある。曖昧領域自体に関する情報として、例えば、ユーザが曖昧領域を手動で決定した場合、ユーザが設定する幅の平均値が該当する。教師画像の曖昧領域と画像に関する情報として、画像のコントラストと教師画像の曖昧領域の幅の相関性を分析結果が該当する。例えば、画像のコントラストと教師画像の曖昧領域の幅の関係を調べ、蓄積した傾向情報の属性からコントラストが大きいときユーザが曖昧領域を太く設定する傾向が検出されたとする。傾向情報取得部では、コントラストと曖昧領域の幅の間に成り立つ関係式を求め、それを傾向情報とする。この方法におけるS1203では、決定部140が、傾向情報を受け取り、新たな画像のコントラストを取得し、先に述べた関係式に代入することで、適切な曖昧領域データの幅を決定する。
次に、2つ目の曖昧領域のトレースデータに対する向きについて説明する。これは、ユーザがトレースデータに対してどの方向に向かって曖昧領域を設定する傾向があるかという情報である。傾向情報取得部では、傾向情報の属性として、例えばユーザから修正操作や曖昧領域データの候補から選択する操作を受けた後、採用された曖昧領域データがトレースデータの位置に対して内側と外側のどちらかという情報を検知対象領域ごとに複数回記録する。これによって、例えばユーザが背景寄りに入力して検知対象寄りに曖昧領域データを広く設定する傾向があることが分かれば、傾向情報取得部では、その情報を傾向情報として得る。この方法におけるS1203では、決定部が傾向情報に従い、新たな画像に対して、ユーザのトレースデータの位置の内側に曖昧領域データを設定するようにする。
3つ目の確率マップの閾値について説明する。これは、ユーザが確率マップにおいて、曖昧領域として決定している画素に付与されている確率の閾値に関する情報である。実施形態2で説明した、複数の曖昧領域の候補からユーザが曖昧領域を決定する操作の際に、確率マップにおいて、曖昧領域データとして採用された領域の各画素に格納されている確率を調べる。もしくは実施形態3で説明した、ユーザが曖昧領域を修正する操作を行う際に、確率マップにおいて、曖昧領域データとして採用された領域の各画素に格納されている確率を調べる。具体的には、決定部の処理が終わったタイミングで、確率マップにおいて、曖昧領域として採用された範囲にある確率の最小値を調べ、その値を傾向情報の属性として蓄積していく。この方法におけるS1203では、決定部140が、新たな画像に対して曖昧領域を決定する際に、確率マップの閾値を、蓄積した傾向情報の属性を参照して平均を求めるなどして、統計的に決定する。
なお、傾向情報は曖昧領域の決定のみならず、曖昧領域のトレースデータを表示する場合には表示順序の決定にも利用できる。トレースデータの順序を決める際に、傾向情報から求めた曖昧領域を優先的に表示するようにする。
以上の実施形態では、あるユーザの操作に基づき傾向情報を取得し、そのユーザが他の画像の教師画像を作成する際に、取得した傾向情報を利用する方法を説明してきた。本実施形態はこれに限定されず、傾向情報取得部で複数の入力者の操作に基づき平均的な情報を求めるようにしても良い。また、傾向情報の使用目的として、ある特定のユーザの作成する教師画像に、他のユーザが作成する教師画像を近づけることもできる。この目的においては、特定のユーザが操作しているときの傾向情報を取得しておき、他のユーザが入力操作を行ったときに、傾向情報を用いて曖昧領域を決定するようにする。以上に述べた方法により、ユーザの操作の傾向情報を取得して、曖昧領域データの決定に利用することができる。これによって、ユーザにとって好ましい曖昧領域を手間なく、効率的に設定することができる。
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供しても良い。
100 情報処理装置
110 入力部
120 表示制御部
130 入力操作部
140 決定部
150 生成部
160 格納部
170 修正部
180 学習部

Claims (13)

  1. 画像における対象物の領域を抽出する学習モデルの教師画像を生成する情報処理装置であって、
    対象物が写った画像から前記対象物の領域を示す閉領域を抽出する操作を受け付ける操作手段と、
    前記閉領域である第1の領域と、前記第1の領域の外縁である第2の領域とを決定する決定手段と、
    前記第1の領域に対して前記対象物の領域であることを示す第1の値を、前記第2の領域に対して前記学習モデルの学習への寄与を抑制する第2の値を、付与した教師画像を生成する生成手段とを有することを特徴とする情報処理装置。
  2. 前記生成手段によって生成された前記教師画像を表示する表示手段を更に有することを特徴とする請求項1に記載の情報処理装置。
  3. 前記表示手段は、前記第1の領域と前記第2の領域とを異なる色で表示することを特徴とする請求項2に記載の情報処理装置。
  4. 前記表示手段は、前記外縁の幅の候補を複数表示し、
    前記決定手段は、ユーザによって選択された前記外縁の幅に従って前記第2の領域を決定することを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記表示手段は、前記外縁の幅が異なる複数の前記第2の領域を切り替えて表示することを特徴とする請求項4に記載の情報処理装置。
  6. 前記決定手段は、前記閉領域に基づいて前記画像のうち背景の領域である第3の領域を決定し、
    前記生成手段は、前記画像のうち、前記第3の領域に対して前記対象物の領域でないことを示す第3の値を付与した前記教師画像を生成することを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記決定手段は、前記画像と前記閉領域とに基づいて、前記画像の前記閉領域外の領域ごとに前記対象物が含まれる確率を求め、所定の閾値より大きい領域を前記第2の領域として決定することを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記確率は、前記画像の領域と前記閉領域との距離が小さいほど大きいことを特徴とする請求項7に記載の情報処理装置。
  9. 前記確率は、前記画像の領域の色と、前記閉領域に含まれる画素の色との類似度が大きいほど大きいことを特徴とする請求項7に記載の情報処理装置。
  10. 前記生成手段で生成された前記教師画像に基づいて、前記学習モデルのパラメータを更新する学習手段をさらに有することを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 予め生成された前記教師画像から、前記第2の領域の面積または前記第1の領域に対して前記第2の領域を変形させる向きに関する傾向情報を取得する取得手段を更に有し、
    前記決定手段は、前記傾向情報に基づいて前記第2の領域を決定することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。
  12. コンピュータを請求項1乃至11のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
  13. 画像における対象物の領域を抽出する学習モデルの教師画像を生成する情報処理方法であって、
    対象物が写った画像から前記対象物の領域を示す閉領域を抽出する操作を受け付ける操作工程と、
    前記閉領域である第1の領域と、前記第1の領域の外縁である第2の領域とを決定する決定工程と、
    前記第1の領域に対して前記対象物の領域であることを示す第1の値を、前記第2の領域に対して前記学習モデルの学習への寄与を抑制する第2の値を、付与した教師画像を生成する生成工程とを有することを特徴とする情報処理方法。
JP2018102273A 2018-05-29 2018-05-29 情報処理装置、情報処理方法及びプログラム Pending JP2019207535A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018102273A JP2019207535A (ja) 2018-05-29 2018-05-29 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018102273A JP2019207535A (ja) 2018-05-29 2018-05-29 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2019207535A true JP2019207535A (ja) 2019-12-05

Family

ID=68767747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018102273A Pending JP2019207535A (ja) 2018-05-29 2018-05-29 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2019207535A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111048A1 (ja) * 2018-11-26 2020-06-04 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JPWO2021171411A1 (ja) * 2020-02-26 2021-09-02
WO2021182345A1 (ja) * 2020-03-13 2021-09-16 富士フイルム富山化学株式会社 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置
WO2022044105A1 (en) * 2020-08-25 2022-03-03 Nec Corporation Image augmentation apparatus, control method, and non-transitory computer-readable storage medium
CN117078698A (zh) * 2023-08-22 2023-11-17 山东第一医科大学第二附属医院 一种基于深度学习的外周血管影像辅助分割方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111048A1 (ja) * 2018-11-26 2020-06-04 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JPWO2020111048A1 (ja) * 2018-11-26 2021-10-21 大日本印刷株式会社 コンピュータプログラム、学習モデル生成装置、表示装置、粒子識別装置、学習モデル生成方法、表示方法及び粒子識別方法
JPWO2021171411A1 (ja) * 2020-02-26 2021-09-02
WO2021171411A1 (ja) * 2020-02-26 2021-09-02 日本電信電話株式会社 対象領域検出装置、対象領域検出方法、及び対象領域検出プログラム
JP7315089B2 (ja) 2020-02-26 2023-07-26 日本電信電話株式会社 対象領域検出装置、対象領域検出方法、及び対象領域検出プログラム
WO2021182345A1 (ja) * 2020-03-13 2021-09-16 富士フイルム富山化学株式会社 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置
JPWO2021182345A1 (ja) * 2020-03-13 2021-09-16
JP7375161B2 (ja) 2020-03-13 2023-11-07 富士フイルム富山化学株式会社 学習データ作成装置、方法、プログラム、及び記録媒体
WO2022044105A1 (en) * 2020-08-25 2022-03-03 Nec Corporation Image augmentation apparatus, control method, and non-transitory computer-readable storage medium
JP7388595B2 (ja) 2020-08-25 2023-11-29 日本電気株式会社 画像拡張装置、制御方法、及びプログラム
CN117078698A (zh) * 2023-08-22 2023-11-17 山东第一医科大学第二附属医院 一种基于深度学习的外周血管影像辅助分割方法及系统
CN117078698B (zh) * 2023-08-22 2024-03-05 山东第一医科大学第二附属医院 一种基于深度学习的外周血管影像辅助分割方法及系统

Similar Documents

Publication Publication Date Title
JP2019207535A (ja) 情報処理装置、情報処理方法及びプログラム
TWI526982B (zh) 區域分割方法、電腦程式產品及檢查裝置
TWI550549B (zh) 圖像處理裝置及圖像處理方法
JP5713790B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US20090304280A1 (en) Interactive Segmentation of Images With Single Scribbles
JP7156515B2 (ja) 点群アノテーション装置、方法、及びプログラム
JP4103898B2 (ja) 地図情報更新方法及び地図更新装置
JP2002202838A (ja) 画像処理装置
CN111028261B (zh) 高精度半自动化图像数据标注方法、电子装置及存储介质
JP2021196705A (ja) 画像処理装置、画像処理方法およびプログラム
CN109064525A (zh) 一种图片格式转换方法、装置、设备和存储介质
JP2004198530A (ja) 地図更新システム、地図更新方法及びコンピュータプログラム
JP6004260B2 (ja) 線画着色システム
CN110874170A (zh) 一种图像区域修正方法、图像分割方法及装置
JP7282551B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2018180646A (ja) 物体候補領域推定装置、物体候補領域推定方法、及び物体候補領域推定プログラム
JP4908867B2 (ja) 地理画像処理システム
JPH10269347A (ja) 地理画像上の影成分の除去方法及び地理画像処理装置、記録媒体
JP2020144686A (ja) モデル作成システム、モデル作成方法
JP6343998B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6938201B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2005241886A (ja) 地理画像間変化領域の抽出方法、地理画像間変化領域を抽出可能なプログラム、閉領域抽出方法及び閉領域抽出可能なプログラム
JP5074622B2 (ja) 地理画像処理システム
JP6670918B2 (ja) 生成装置、生成方法及び生成プログラム
US20220147762A1 (en) Object detection dataset construction method using image entropy and data processing device performing the same