JP2024008593A - 情報処理装置及びその制御方法及びプログラム - Google Patents

情報処理装置及びその制御方法及びプログラム Download PDF

Info

Publication number
JP2024008593A
JP2024008593A JP2022110587A JP2022110587A JP2024008593A JP 2024008593 A JP2024008593 A JP 2024008593A JP 2022110587 A JP2022110587 A JP 2022110587A JP 2022110587 A JP2022110587 A JP 2022110587A JP 2024008593 A JP2024008593 A JP 2024008593A
Authority
JP
Japan
Prior art keywords
frame
verification
size
information
reference frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022110587A
Other languages
English (en)
Inventor
智之 天川
Tomoyuki Amakawa
雅人 青葉
Masahito Aoba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022110587A priority Critical patent/JP2024008593A/ja
Priority to PCT/JP2023/024200 priority patent/WO2024009888A1/ja
Publication of JP2024008593A publication Critical patent/JP2024008593A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

【課題】 学習データとして利用する複数の画像における各画像内の対象物の検証部位の位置とサイズに異常があるか否かを効率的に判定できる環境をユーザに提供する。【解決手段】 画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置であって、複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得部と、取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化部と、複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御部とを有する。【選択図】 図1

Description

本発明は情報処理装置及びその制御方法及びプログラムに関するものである。
近年、撮影された画像を処理して、画像内の物体を検出する手法が多く提案されている。特にその中でも、ディープネット(或いはディープニューラルネット、ディープラーニングとも称される)と呼ばれる多階層のニューラルネットワークを用いて、画像中の物体の特徴を学習し、物体の位置や種類を認識する手法に関して、盛んに研究されている。非特許文献1にはディープネットを用いて画像から物体を検出する手法について開示されている。
物体の特徴の学習を行うには、人が画像に対して物体の位置やサイズといった正解情報を設定する必要がある。この画像と正解情報を学習データと呼ぶ。精度の高い認識器を作るためには、学習データを大量に用意する必要がある。特許文献1は、「人が正解情報を付ける操作」と「検出器の精度を評価する操作」とを所望の精度に達するまで繰り返すことで、十分な精度が確保された学習データを取得する方法を記載している。
特許第5953151号公報 特開2019-46095号公報
SSD: Single Shot MultiBox Detector, Wei Liu et al., 2015 安部将成 MT法におけるしきい値設定法の提案と比較 Jiankang Deng et al., "RetinaFace: Single-stage Dense Face Localisation in the Wild" 2 May 2019
ユーザが手作業で学習データを準備すると、作業ミスや学習データの定義の誤解により位置やサイズの正解情報が誤った状態で入力される可能性がある。それ故、特許文献1に記載の技術では、誤った正解情報を含む学習データを利用して学習を行ってしまうと、認識器の精度が低下するという問題が残る。
特許文献2では、信頼度が低い学習データの画像と正解情報とを選択して表示することで、ユーザが学習データを効率的に見直すことが可能となる方法が記載されている。しかしながら、特許文献2の方法では、単一画像の確認方法の効率化に留まっており、複数枚画像の正解情報を確認するには時間がかかるといった課題がある。
本発明は、上記の課題に鑑みてなされたものであり、学習データとして利用する複数の画像における各画像内の対象物の検証部位の位置とサイズに異常があるか否かを効率的に判定できる環境をユーザに提供するものである。
この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、
画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置であって、
複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、前記対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得手段と、
取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化手段と、
前記複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、前記正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御手段とを有する。
本発明によれば、ユーザは、学習データとして利用する複数の画像における各画像内の対象物の検証部位の位置とサイズに異常があるか否かを効率的に判定できるようになる。
第1の実施形態におけるシステム構成の一例を示す図。 第1の実施形態における情報処理装置の機能構成図。 第1の実施形態における情報処理装置の処理の流れを示すフローチャート。 第1の実施形態における画像と枠情報の一例を示す図。 第1の実施形態における正規化処理の流れを示すフローチャート。 第1の実施形態における正規化基準枠と正規化検証枠の枠情報の表示の一例及び表示遷移の一例を示す図。 第2の実施形態における情報処理装置の機能構成図。 第2の実施形態における情報処理装置の処理の流れを示すフローチャート。 第2の実施形態における統計情報算出処理の流れを示すフローチャート。 第2の実施形態における正規化基準枠と正規化検証枠の枠情報、統計情報の表示の一例と統計情報の選択の一例を示す図。 第3実施形態における情報処理装置の機能構成図。 第3の実施形態における統計情報算出処理の流れを示すフローチャート。 第4の実施形態における情報処理装置の機能構成図。 実施形態の枠情報保持部が保持する情報の例を示す図。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
本実施形態では、人の顔が写った画像に、事前に入力された当該人物の瞳の正解情報である枠の検証、修正を支援するためのツールを例にとり説明する。瞳と位置、またはサイズに相関のある当該人物の頭部の枠を基準の枠(以下、基準枠)として、検証する瞳の枠(以下、検証枠)との相対位置や相対サイズを比較することで、検証枠の妥当性を検証する。入力画像、基準枠、及び検証枠の対応関係については、図4において後述する。本実施形態では、位置及びサイズに相関がある例を例示するが、どちらかに相関があればよい。また、サイズ情報のない物体の位置のみを示す座標点を設定するようにしてもよいし、画像上にランダムに現れる、位置に相関のない物体のサイズ情報を比較してもよい。また、検証部位が瞳であるものとするが、これは便宜的なものであって、瞳以外の顔のパーツであっても良い。

<システム構成>
本実施形態に係る情報処理装置100のシステム構成例を図1に示す。情報処理装置100は、システム構成として、制御装置11、記憶装置12、演算装置13、入力装置14、出力装置15、I/F装置16とを有する。
制御装置11は、情報処理装置100の全体を制御するもので、CPU、及び、CPUが実行するプログラムを格納するメモリで構成される。
記憶装置12は、制御装置11の動作に必要なプログラム及びデータを保持するものであり、典型的にはハードディスクドライブ等である。
演算装置13は、制御装置11からの制御に基づき、必要な演算処理を実行する。
入力装置14は、ヒューマンインターフェースデバイス等であり、ユーザの操作を情報処理装置100に伝達する。入力装置14は、例えば、スイッチ、ボタン、キー、タッチパネル、キーボードなどの入力デバイス群で構成される。
出力装置15は、ディスプレイ等であり、情報処理装置100の処理結果等をユーザに提示する。
I/F装置16は、ユニバーサルシリアルバス、イーサネット、光ケーブル等の有線インタフェース、Wi-Fi、Bluetooth等の無線インタフェースである。I/F装置16は、例えばカメラ等の撮像装置が接続可能である。そして、I/F装置16は、その撮像装置による撮影画像を情報処理装置100に取り込むインタフェースとしても機能する。また、I/F装置16は、情報処理装置100で得られた処理結果を外部に送信するインタフェースとしても機能する。更に、I/F装置16は、情報処理装置100の動作に必要なプログラムやデータ等を情報処理装置100に入力するためのインタフェースとしても機能する。
図2は情報処理装置100の機能構成を示す図である。情報処理装置100は、画像保持部101、枠情報保持部102、正規化処理部103、表示制御部104、ユーザ操作取得部105、枠情報修正部106を備える。
なお、図1に示す制御装置11は、記憶装置12に格納されたプログラムをメモリにロードし、実行する。図2の機能構成図を構成する各機能部は、制御装置11がプログラムを実行することで機能するものと理解されたい。
画像保持部101は、複数の画像を保持する。保持対象の画像はカメラ等により撮影された画像でもよいし、ハードディスクなどの記憶装置に記録されている画像でもよいし、インターネット等のネットワークを介して受信された画像でもよい。画像保持部101は、例えば記憶装置12により実現する。
枠情報保持部102は、画像保持部101で保持される各画像に紐づけられ、事前に入力された枠情報を管理するテーブルを保持する。本実施形態における枠情報は、画像内の対象物体(人物)の存在に関する情報であり、画像上の対象部位(顔)を包含する基準枠(典型的には外接矩形枠)の位置とサイズ、並びに、顔のパーツ(実施形態では目)を包含する枠の位置とサイズを示す情報である。位置は、枠の左上隅の2次元座標の値である。サイズは枠の水平方向の長さと垂直方向の長さを表す値である。また、この枠情報保持部102は、例えば記憶装置12により実現する。
図14は、枠情報保持部102が保持するテーブルの一例を示す。テーブルの第1フィールドは、画像ファイルを特定するIDである。画像ファイルを特定するのであれば画像ファイル名であっても良い。第2フィールドは、画像ファイルが表す画像のサイズ(水平、垂直方向の画素数)である。第3フィールドは、画像内の人物の顔領域を包含する基準枠の位置とサイズである。画像の左上隅の位置を原点(0,0)とし、その原点から水平右方向をx軸の正の方向、垂直下方向をy軸の正の方向と定義する。基準枠の位置は、その基準枠の左上隅の位置を表し、基準枠のサイズはその基準枠の水平、垂直方向のサイズ(画素数)である。
テーブルの第4フィールドは、検証枠A(例えば人物の右目)を包含する矩形枠の位置とサイズである。位置、サイズの定義は、検証枠で説明した通りである。第5フィールドは、第4フィールドの検証枠Aに対する正誤確認フラグを示し、初期段階では未確認を示す“0”が格納される。
第6フィールドは、検証枠B(例えば人物の左目)を包含する矩形枠の位置とサイズである。第7フィールドは、第6フィールドの検証枠Bに対する正誤確認フラグを示し、初期段階では未確認を示す“0”が格納される。
正規化処理部103は、枠情報保持部102より取得した複数の枠に正規化処理を実施する。ここで、正規化処理とは、枠の2次元座標上の変換処理のことを指す。例えば、ある基準枠が画像上の2次元座標上の固定位置、固定サイズとなるように変換する処理である。検証枠も、正規化された基準枠に従って同様に変換される。正規化処理の目的は、個々の画像の基準枠、検証枠の相対位置や相対サイズを把握し易くすることにある。
表示制御部104は、正規化処理部103による正規化後の基準枠(以降、正規化基準枠)、及び、正規化後の検証枠(以下、正規化検証枠)、画像保持部101に保持された画像を出力装置15に表示する。
ユーザ操作取得部105は、入力装置14で入力されたユーザの操作情報を取得する。
枠情報修正部106は、ユーザ操作取得部105で取得したユーザ操作に従って、枠情報を修正し、修正した枠情報を枠情報保持部102に保存する。
次に、本実施形態に係る情報処理装置100の処理の流れの例を、図3を用いて説明する。
S301において、制御装置11は、枠情報保持部102に保持されたテーブルを参照し、基準枠および検証枠の枠情報を取得する。
図4(a)は、画像と枠情報の一例を示す図である。図4(a)中、参照符号401は対象物体(人物)を含む画像であり、参照符号403は対象物体の対象部位(頭部)に対応する基準枠、及び、参照符号404,405は検証枠(実施形態では目)である。また、図4(a)には、他の人物画像402も示されている。この画像402には、基準枠406,検証枠407、408も示されている。なお、簡単のため、画像401、402には一人の人物が写っているものとする。
S301において、制御装置11は、枠情報保持部102に保持されたテーブル(図14)を参照し、各画像の基準枠(図4の参照符号403、406等)、検証枠(参照符号404,405,407,408等)の枠情報を取得する。
S302において、正規化処理部103は、取得した基準枠、検証枠の正規化処理を行う。正規化処理の流れを図5に示し、説明する。ここでは、図4(a)の基準枠403を例に説明する。
S501において、正規化処理部103は、基準枠403の幅及び高さが固定サイズになるように基準枠及び検証枠を変倍(縮小または拡大)する。例えば、目標とする固定サイズの水平方向、及び、垂直方向とも500画素であり、基準枠403の水平方向サイズが400画素、垂直方向が300であった場合、正規化処理部103は、水平方向の倍率を1.25倍(=500/400)、垂直方向の倍率を1.67倍(=500/300)とする。そして、正規化処理部103は、決定した垂直及び水平方向の倍率に従い、基準枠の位置とサイズを変更する。例えば、図14の画像ID=0001の基準枠が、上記基準枠403であった場合、正規化処理部103は、水平成分を含むRX1及びRWを1.25倍し、垂直成分を含むRY1及びRH1を1.67倍する。また、正規化処理部103は、決定した垂直及び水平方向の倍率に従い、検証枠A,Bの位置とサイズについても変更する。
S502において、正規化処理部103は、正規化した基準枠中心の座標を指定位置に平行移動する。例えば、指定位置が(x、y)=(500ピクセル、500ピクセル)、基準枠403の中心の座標が(x、y)=(300ピクセル、200ピクセル)だった場合、基準枠403をx方向に+200ピクセル、y方向に+300ピクセル平行移動する。同様に検証枠404、405の座標を平行移動する。
S503において、正規化処理部103は、基準枠403の周辺領域にある検証枠情報を保持する。例えば、座標上のx座標、y座標が0~1000ピクセルに含まれる検証枠情報を記憶装置12に保持する。
正規化処理部103は、これらS501~S503のステップを、S301で取得した全ての基準枠について繰り返し処理する。このようにして、複数の正規化した基準枠(以下、正規化基準枠)の枠情報である正規化基準枠情報、および正規化した検証枠(以下、正規化検証枠)の枠情報である正規化検証枠情報が得られる。
続いて、図4(b)を参照して、正規化基準枠と正規化検証枠の表示例について説明する。図4(b)中、参照符号410は正規化基準枠を示す。個々の画像のサイズや基準枠はまちまちであっても、正規化基準枠は同じサイズであり、ズレは発生しない。参照符号412、及び、正規化基準枠410内にある実線の複数の枠は、正規化検証枠である。また、参照符号411は、S503で計算された周辺領域を表す枠である。頭部と瞳の位置には相関があるため、瞳の位置を正しく表してない検証枠408に対応する正規化検証枠412が、他の検証枠に対し大きくずれた位置にあることがわかる。このように、複数枚数の画像の正規化基準枠と正規化検証枠を重畳表示することで、複数枚数の枠を同時に確認し、不自然な枠を識別することができる。
図3の説明に戻る。S303において、表示制御部104はS302で算出した正規化基準枠と正規化検証枠の枠情報と、S303で算出された統計情報を出力装置15に表示させる制御を行う。
図6を参照して、正規化基準枠と正規化検証枠の枠情報の表示例及び表示遷移例を説明する。図6(a)における参照符号601は、出力装置15に表示するウインドウである。ウインドウ601中の参照符号411は、図4(b)で例示した正規化基準枠の周辺領域を表した枠である。周辺領域411には、正規化基準枠に対する複数の正規化検証枠が重畳して表示されている。
S304において、ユーザ操作取得部105は、ユーザの入力に従って検証枠を選択する。ここでは、ユーザの入力はマウス等のポインティングデバイスの操作によって、検証枠の選択を受け付ける。図6(b)中、参照符号602はマウスカーソルを示し、ユーザはこのマウスカーソルの位置の変更操作を行うことで、目的とする検証枠を選択できる。実施形態の場合、ウインドウ601内に、他の検証枠から不自然に離れている正規化検証枠412をユーザが選択することになる。なお、タッチ入力を利用する場合には、ユーザは正規化検証枠412をタッチすれば良いので、マウスカーソルの表示は不要である。
S305において、表示制御部104は、S305で選択した検証枠情報を受けて、図6(b)のウインドウ601から、ユーザによる編集可能な図6(c)のウインドウ603に画面遷移する。この際、表示制御部104は、図14のテーブルを参照して、S305で選択した検証枠412に紐づけられた画像402と基準枠406、検証枠407、408を表示する。また、表示制御部104は、枠情報修正を受け付けるため修正ボタン604とウインドウ601に戻るためのOKボタン605をウインドウ603に配置し、表示する。
S306にて、表示制御部104は、OKボタン605が押下されたと判定した場合、枠は問題ないと判定し、S307をスキップする。また、表示制御部104は、OKボタンが押下された正規化検証枠を後述のS309で非表示とするために、当該枠の正誤情報として、正しい枠というフラグ情報を枠情報保持部102に保存する。例えば、表示制御部104は、図14のテーブルの該当する検証枠用のフラグを“1”1として保存する。
一方、S306にて、表示制御部104は修正ボタン604を押下されたと判定した場合、枠は問題ありと判定され、処理をS307に進める。このS307にて、表示制御部104は枠を修正するために、図6(d)のウインドウ606に遷移し、ユーザが枠情報を修正できるようにする。例えば、検証枠408の中央部を押下し続けたままで移動操作(ドラッグ操作)することでその位置を修正し、検証枠408の枠線上を押下し続けることで枠サイズの修正をすることができるようにする。この修正後の正規化検証枠の位置とサイズに対して正規化とは逆の処理を行って元の画像のスケールに応じた位置とサイズに変換した上で、テーブルを修正する。
図6(d)は、修正後の例として、ウインドウ606にて検証枠408が検証枠607に修正されていることを示している。修正された検証枠607の位置やサイズの枠情報は枠情報修正部106によって、枠情報保持部102に再保存される(図14のテーブルが更新される)。
S308にて、表示制御部104は、修正後にOKボタン605の押下を検出すると、図6(e)のウインドウ608に遷移する。また、OKボタンが押下された正規化検証枠を後述のS309で非表示とするために、当該枠の正誤情報として、正しい枠というフラグを“1”として保存する。表示制御部104は、フラグが“1”となった検証枠は非表示とする。この結果、他の確認していない他の正規化検証枠が見やすくなる。
続いてS309において、表示制御部104は、ユーザから処理を終了するか否か指示入力を待つ。一連の修正作業を終了指示のボタン(不図示)の押下や、すべての枠の修正作業か完了した場合、表示制御部104は本処理を終了する。なお、本処理を終了したとき、フラグが初期値の“0”のままの検証枠は正しいものとして判定される。そして、S309で終了された場合、表示制御部104は、ウインドウ608を閉じる。S309で終了されなかった場合、表示制御部104は、ウインドウ608の表示を継続し、ユーザが検証枠の確認及び修正ができるようにする。また、S306、S308でフラグ情報が1となっていた場合、表示制御部104は、該当する正規化検証枠412を非表示にする。
なお、本実施形態では検証枠として、矩形の枠を表示する例について説明したが、例えば多角形や円形の領域枠を設定するようにしてもよい。また、サイズ情報のない物体の位置のみを示す座標点を設定するようにしてもよいし、画像上にランダムに現れる、位置に相関のない物体のサイズ情報を比較することもできる。さらに、画素単位のラベル情報に適用してもよい。また、本形態では、頭部の枠と顔の枠で例示したが、全身の枠と頭部の枠でもよいし、全身の枠と人物が保持する任意物体との対応でもよい。
さらに、上記では人物の例を示したが、一般物体にも適応可能で、例えばバイクに乗った人の全領域を外接する枠を想定した場合に、正しくバイクと人の両方を囲った枠と、誤ってバイクのみを囲った枠を分離することもできる。
以上説明したように、本実施形態に係る情報処理装置は、検証枠(瞳)と位置及びサイズに相関のある基準枠(頭)との相対位置を同時に表示することで、ユーザが誤りと疑われる学習データを効率的に見直すことが可能となる。
[第2の実施形態]
本第2の実施形態では、統計情報の分布を用いた正規化検証枠の選択及び修正の構成について説明する。第1の実施形態と同じ部分については説明を省略し、異なる点のみについて説明する。
図7は、第2の実施形態における情報処理装置100の機能構成図である。第1の実施形態の図2との違いは、統計情報算出部107が追加されている点である。
統計情報算出部107は、正規化処理部103で正規化した検証枠の相対距離、相対サイズ、相対角度を算出する。また、統計情報算出部107は、計算された相対距離、相対サイズ、相対角度をもとにヒストグラムや散布図等のグラフを作成する。
表示制御部104は、統計情報算出部107で算出された統計情報を出力装置15に表示する。
本第2の実施形態に係る情報処理装置100の処理の流れの例を、図8のフローチャートを参照して、以下に説明する。
S801にて、統計情報算出部107は、正規化検証枠の統計情報を算出する。この統計情報算出処理の詳細を図9のフローチャートを参照して説明する。
S901にて、統計情報算出部107は、正規化基準枠の中心座標と正規化検証枠の中心座標との距離を算出する。距離として、例えば、ユークリッド距離を用いる。
S902にて、統計情報算出部107は、正規化検証枠のサイズを算出する。例えば、正規化検証枠の対角線の長さをサイズとする。
S903にて、統計情報算出部107は、正規化検証枠の角度を算出する。角度として、例えば、統計情報算出部107は、画像座標x軸に対する、正規化基準枠の中心座標と正規化検証枠の中心座標間の直線の角度として算出し、該角度を基にコサイン類似度を算出する。
S904にて、統計情報算出部107は、正規化基準枠と正規化検証枠の重複度を算出する。統計情報算出部107は、重複度として、例えば、着目する二つの領域の和集合の面積に対する、当該二つの領域の積集合(重複領域)の面積の比(IoU:Intersection over Union)を算出する。
S905にて、統計情報算出部107は、全検証枠についてS901からS904の処理を実施したか判定する。
S905にて、統計情報算出部107が、処理を実施していない検証枠がまだ残っていると判定した場合、処理をS901に戻し、次の検証枠について処理を実施する。
一方、S905にて、統計情報算出部107が全検証枠に対して処理を実施したと判定した場合、処理をS906に進める。このステップS906にて、統計情報算出部107は、計算された相対距離、相対サイズ、相対角度をもとにヒストグラム、散布図を作成する。ヒストグラムは相対距離、相対サイズ、相対角度を横軸としたときの検証枠の頻度のヒストグラムであり、1変数の分布から外れている検証枠情報を確認する目的で作成する。また、散布図は、相対距離と相対サイズの散布図、相対距離と相対角度の散布図、相対サイズと相対角度の散布図であり、2変数の分布から外れている枠情報を確認する目的で作成する。2変数の分布は散布図でなく、ヒートマップ表示としてもよい。
図8の説明に戻る。S802において、表示制御部104はS302で算出した正規化基準枠と正規化検証枠の枠情報と、S801で算出された統計情報を出力装置15に表示させる制御を行う。
図10(a)乃至(c)に正規化基準枠と正規化検証枠の枠情報、統計情報の表示例と統計情報の選択例を示す。図10(a)における参照符号1001は、出力装置15に表示するウインドウである。ウインドウ1001における、参照符号410は正規化基準枠である。参照符号412、1002、1003、及び、正規化基準枠410内にある実線の枠は正規化検証枠である。S801で算出された統計情報のヒストグラム、及び、散布図を参照符号1004、1005、1006に示すように表示される。ヒストグラム1004は距離に対するヒストグラムを示し、ヒストグラム1005はサイズに対するヒストグラムである。また、散布図1006は、サイズと距離の散布図である。ここでは、角度や重複度に関するヒストグラムや散布図を例示していないが、角度や重複度のヒストグラムや散布図を、不図示のボタンを押下することで表示してもよい。また、ユーザが表示したい情報のヒストグラムや散布図を、不図示のプルダウンから選択できるようにしてもよい。
S803にて、表示制御部104は、ユーザ操作取得部105からのユーザの入力に従って統計情報の分布に対する階級や領域を選択する。ユーザに統計情報の分布に対する階級や領域を選択させ、検証枠の表示数を限定することで、正規化検証枠を確認しやすくする。図10(b)中、参照符号1007はマウス操作に連動するマウスカーソルである。図示の場合、マウスカーソル1007は距離に対するヒストグラムの一番大きな階級を表すグラフ要素を選択している。表示制御部104は、この選択を受け、図10(b)のウインドウ1001から図10(c)のウインドウ1009に画面を遷移する。表示制御部104は、ウインドウ1001にてユーザが選択した階級を塗りつぶすことで、どの階級を選択したか、確認できるようにする。また、表示制御部104は、塗りつぶした階級に該当する正規化検証枠412、1004のみを、周辺領域411に表示することで、多くの検証枠が表示されている場合でも、確認する検証枠を限定することができる。
ここでは、距離によるヒストグラムの階級を選択する例を示したが、サイズのヒストグラム1005の一番大きな階級を選択することで、他の枠より大きな正規化検証枠1003のみを表示させることもできる。
また、本第2の実施形態では統計情報の階級を選択することで、正規化検証枠を表示する例を述べたが、例えば図6(c)のウインドウ603に画面遷移し、ユーザに画像と検証枠の確認を促してもよい。
さらに、散布図である1006の領域をマウス操作等で不図示の円を描くなどして選択することで、円に含まれる正規化表示枠のみを表示させるようにしてもよい。また、ウインドウ1001の411内の正規化検証枠の範囲を不図示の円描くなどして指定することで、円に含まれる正規化検証枠のみを表示するようにしてもよい。また、この状態で、第1の実施形態と同様に、編集処理に移行できるようにしても良い。
以上説明したように、本第2の実施形態では、検証枠の統計情報の分布を可視化し、分布の階級や正規化検証枠の集団を選択させ表示する。当該表示により、誤っていると疑われる検証枠のみをユーザが視認することができ、検証枠の確認作業が容易となる。
[第3の実施形態]
本第3の実施形態では、統計情報を用いて誤っていると疑われる正規化検証枠を自動で選択する構成について説明する。第2の実施形態と同じ部分については説明を省略し、異なる点のみについて説明する。
図11は、第3の実施形態における情報処理装置100の機能構成図である。第2の実施形態の図7との違いは、誤り検証枠情報判定部108が追加された点にある。
誤り検証枠情報判定部108は、誤りの可能性が高い枠を統計情報から判定する。統計情報として、1つの正規化検証枠が、相対距離、相対サイズ、相対角度、重複度の4つのベクトル成分を持つものとし、非特許文献2に記載のマハラノビス距離を算出し、マハラノビス距離があらかじめ設定された閾値を超えた場合に誤りの可能性が高い正規化検証枠と判定する。
本第3の実施形態に係る統計情報算出処理の流れを図12に示す。第2の実施形態における図9の統計情報算出処理の流れと異なる部分のみを説明する。
S905にて、統計情報算出部107は、全検証枠に対して、S901からS904の処理を実施したか判定する。S905にて、統計情報算出部107は、全検証枠についての処理を終えたと判定した場合、S906の処理を経て、S1201において、各検証枠に対する距離、サイズ、角度、重複度のマハラノビス距離を算出する。
そして、S1202にて、統計情報算出部107は、マハラノビス距離が閾値を超える正規化検証枠が存在するか否かの判定を行う。たとえば、ここで規定する閾値を1と設定する。続いてS802において、表示制御部104は、閾値を超えた正規化検証枠のみを表示する。
なお、本実施形態で、閾値はあらかじめ設定した例を説明したが、閾値は不図示の入力フォームによってユーザにより任意に変えられるようにしてもよい。また、閾値を単一でなく複数設定し、複数の閾値で区切られる領域毎に正規化検証枠を表示する不図示のボタンで切り替えるようにしてもよい。
また、閾値を超えない正規化検証枠を非表示にするのではなく、色分けして見やすくしてもよいし、マハラノビス距離を枠の近くに表示することでユーザに判断のための情報を与えてもよい。
なお、本実施形態ではマハラノビス距離を用いて正規化検証枠を限定したが、例えば平均値を中心として、標準偏差の3倍以上離れた値を外れ値として、誤り検証枠候補としてもよい。また、中央値と四分位数を用いて、第一四分位値から四分位差離れた値を外れ値として誤り検証枠候補としてもよい。
以上説明したように、本第3の実施形態によれば、検証枠の統計情報から、当該検証枠情報の統計情報の外れ値を閾値処理によって判定する。これにより、誤っていると疑われる検証枠をユーザに提案することができ、検証枠の確認作業が容易となる。
[第4の実施形態]
本第4の実施形態では、基準枠をあらかじめ準備した枠でなく、物体枠検出部を用いて検出した枠を用いて正規化処理を実施し、検証枠を選択する構成について説明する。第3の実施形態と同じ部分については説明を省略し、異なる点のみについて説明する。
図13は、本第4の実施形態における情報処理装置100の機能構成図である。第3の実施形態の構成に加えて、物体枠検出部109を備える点が異なる。
この物体枠検出部109は、画像と検証枠のペアを入力したとき、その画像から、例えば非特許文献1、3に示されるような階層型畳み込みニューラルネットワークを用いて、基準枠の検出を行う。これにより、基準枠をあらかじめ準備しなくても、その基準枠に対する検証枠の検証することができ、基準枠の入力の手間を省くことができる。
なお、物体検出部109による検出枠を検証する方法として、あらかじめ準備した基準枠と、物体枠検出部を用いて検出した検証枠に対して、正規化処理を実施し、検証枠を選択する構成をとってもよい。
以上第1乃至第4の実施形態を説明した。上記実施形態では、人間の目を検証枠が示すものとしたため、1つの基準枠に対する検証枠は2つの例であったが、特に検証枠の個数は1以上であれば良く、その個数は特に制限はないことを付言しておく。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の情報処理装置、方法及びプログラムを含む。
(項目1)
画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置であって、
複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、前記対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得手段と、
取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化手段と、
前記複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、前記正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御手段と
を有することを特徴とする情報処理装置。
(項目2)
表示された前記検証枠を選択する選択手段と、
選択した検証枠のサイズと位置を修正する編集手段とを有し、
前記表示制御手段は、前記編集手段で編集された検証枠については、非表示とする
ことを特徴とする項目1に記載の情報処理装置。
(項目3)
前記複数の画像、及び、各画像の基準枠情報及び前記編集手段による編集を経た検証枠情報は、学習データとして利用されることを特徴とする項目2に記載の情報処理装置。
(項目4)
前記基準枠は画像中の人物の顔を包含する枠であって、前記検証枠は顔を構成する部位を包含する少なくも1つの枠である
ことを特徴とする項目1乃至3のいずれか1つに記載の情報処理装置。
(項目5)
前記正規化手段による正規化された前記基準枠情報、及び、前記検証枠情報から、各検証枠の位置とサイズの相対的なズレを表す、少なくとも1つの統計情報を算出する算出手段を更に有し、
前記表示制御手段は、
前記算出手段で算出した統計情報をグラフとして表示し、
前記選択手段によって、表示された前記グラフの要素が選択された場合には、該当する要素に属する前記検証枠のみを表示する
ことを特徴とする項目1乃至4のいずれか1つに記載の情報処理装置。
(項目6)
前記算出手段は、前記基準枠と前記検証枠との間の相対距離、相対サイズ、もしくは、相対角度から統計情報を算出することを特徴とする項目5に記載の情報処理装置。
(項目7)
前記算出手段で算出した統計情報に基づき、前記検証枠の位置とサイズの誤りの程度を表す値を算出し、予め設定された閾値と比較することで、誤りがあるか否かを判定する判定手段を更に有し、
前記表示手段は、前記判定手段によって誤りが有ると判定した検証枠と、対応する画像を、編集可能に表示する
ことを特徴とする項目5に記載の情報処理装置。
(項目8)
前記判定手段は、マハラノビス距離を、誤りの程度を表す値として算出することを特徴とする項目7に記載の情報処理装置。
(項目9)
画像を入力し、前記基準枠を検出するため、前記画像における前記対象物体を検出する物体検出手段を更に有し、
前記取得手段は、前記物体検出手段により得た前記画像と当該画像における対象物に対する基準枠情報とを取得する
ことを特徴とする項目1乃至8のいずれか1つに記載の情報処理装置。
(項目10)
画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置の制御方法であって、
複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、前記対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得工程と、
取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化工程と、
前記複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、前記正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御工程と
を有することを特徴とする情報処理装置の制御方法。
(項目11)
コンピュータが読み込み実行することで、前記コンピュータに、項目1乃至9のいずれか1つの記載の装置が有する各手段として機能させるためのプログラム。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100…情報処理装置、11…制御装置、12…記憶装置、13…演算装置、14…入力装置、15…出力装置、16…I/F装置、101…画像保持部、102…枠情報保持部、103…正規化部、104…表示制御部、105…ユーザ操作取得部、106…枠情報修正部

Claims (11)

  1. 画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置であって、
    複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、前記対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得手段と、
    取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化手段と、
    前記複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、前記正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御手段と
    を有することを特徴とする情報処理装置。
  2. 表示された前記検証枠を選択する選択手段と、
    選択した検証枠のサイズと位置を修正する編集手段とを有し、
    前記表示制御手段は、前記編集手段で編集された検証枠については、非表示とする
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記複数の画像、及び、各画像の基準枠情報及び前記編集手段による編集を経た検証枠情報は、学習データとして利用されることを特徴とする請求項2に記載の情報処理装置。
  4. 前記基準枠は画像中の人物の顔を包含する枠であって、前記検証枠は顔を構成する部位を包含する少なくも1つの枠である
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記正規化手段による正規化された前記基準枠情報、及び、前記検証枠情報から、各検証枠の位置とサイズの相対的なズレを表す、少なくとも1つの統計情報を算出する算出手段を更に有し、
    前記表示制御手段は、
    前記算出手段で算出した統計情報をグラフとして表示し、
    前記選択手段によって、表示された前記グラフの要素が選択された場合には、該当する要素に属する前記検証枠のみを表示する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記算出手段は、前記基準枠と前記検証枠との間の相対距離、相対サイズ、もしくは、相対角度から統計情報を算出することを特徴とする請求項5に記載の情報処理装置。
  7. 前記算出手段で算出した統計情報に基づき、前記検証枠の位置とサイズの誤りの程度を表す値を算出し、予め設定された閾値と比較することで、誤りがあるか否かを判定する判定手段を更に有し、
    前記表示手段は、前記判定手段によって誤りが有ると判定した検証枠と、対応する画像を、編集可能に表示する
    ことを特徴とする請求項5に記載の情報処理装置。
  8. 前記判定手段は、マハラノビス距離を、誤りの程度を表す値として算出することを特徴とする請求項7に記載の情報処理装置。
  9. 画像を入力し、前記基準枠を検出するため、前記画像における前記対象物体を検出する物体検出手段を更に有し、
    前記取得手段は、前記物体検出手段により得た前記画像と当該画像における対象物に対する基準枠情報とを取得する
    ことを特徴とする請求項1に記載の情報処理装置。
  10. 画像内の対象物の検証部位の位置とサイズを表す情報についての、正誤の判定を支援する情報処理装置の制御方法であって、
    複数の画像と、当該複数の画像それぞれの画像における、対象物を包含する基準枠の位置とサイズを表す基準枠情報、並びに、前記対象物の検証部位を包含する検証枠の位置とサイズを表す検証枠情報を取得する取得工程と、
    取得した基準枠情報が表す基準枠のサイズを正規化し、当該正規化に従って対応する検証枠のサイズと位置を正規化する正規化工程と、
    前記複数の画像における各画像について、正規化後の基準枠を予め設定された位置に表示し、正規化後の検証枠を、前記正規化後の基準枠に対する、正規化後の位置とサイズに応じた相対位置に重畳表示する表示制御工程と
    を有することを特徴とする情報処理装置の制御方法。
  11. コンピュータが読み込み実行することで、前記コンピュータに、請求項10に記載の方法の各工程を実行させるためのプログラム。
JP2022110587A 2022-07-08 2022-07-08 情報処理装置及びその制御方法及びプログラム Pending JP2024008593A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022110587A JP2024008593A (ja) 2022-07-08 2022-07-08 情報処理装置及びその制御方法及びプログラム
PCT/JP2023/024200 WO2024009888A1 (ja) 2022-07-08 2023-06-29 情報処理装置及びその制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022110587A JP2024008593A (ja) 2022-07-08 2022-07-08 情報処理装置及びその制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2024008593A true JP2024008593A (ja) 2024-01-19

Family

ID=89453490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022110587A Pending JP2024008593A (ja) 2022-07-08 2022-07-08 情報処理装置及びその制御方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2024008593A (ja)
WO (1) WO2024009888A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014217008A (ja) * 2013-04-30 2014-11-17 株式会社ニコン 画像処理装置、撮像装置および画像処理プログラム
CN106572825B (zh) * 2014-07-23 2019-10-18 株式会社岛津制作所 放射线摄影装置
JP7197971B2 (ja) * 2017-08-31 2022-12-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム

Also Published As

Publication number Publication date
WO2024009888A1 (ja) 2024-01-11

Similar Documents

Publication Publication Date Title
CN109426835B (zh) 信息处理装置、信息处理装置的控制方法和存储介质
JP6716996B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
JP6265027B2 (ja) 表示装置、位置特定プログラム、および位置特定方法
JP2017069956A (ja) ヨー・ユーザインターフェイス
JP6330880B2 (ja) カメラ姿勢におけるヨーエラー推定のアルゴリズム
US20050234323A1 (en) Gaze guidance degree calculation system, gaze guidance degree calculation program, storage medium, and gaze guidance degree calculation method
JP2018116599A (ja) 情報処理装置、情報処理方法およびプログラム
JP6179224B2 (ja) 画像処理フィルタの作成装置及びその方法
JP6054831B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
US20200334862A1 (en) Moving image generation apparatus, moving image generation method, and non-transitory recording medium
EP3300025A1 (en) Image processing device and image processing method
JP2016021998A (ja) 画像処理装置、画像処理方法及びプログラム
US10281804B2 (en) Image processing apparatus, image processing method, and program
JP6866616B2 (ja) 重畳画像生成プログラム、重畳画像生成方法、および情報処理装置
JP7386007B2 (ja) 画像処理方法、画像処理装置及び画像処理機器
WO2024009888A1 (ja) 情報処理装置及びその制御方法及びプログラム
KR101792701B1 (ko) 도면 검사 장치 및 방법
CN107209862B (zh) 识别装置和信息存储介质
JP7179633B2 (ja) 計測方法、計測装置、およびプログラム
JP7164008B2 (ja) データ生成方法、データ生成装置及びプログラム
JP2022095121A (ja) 画像処理装置、画像処理方法、及びプログラム
US20240029379A1 (en) Image processing apparatus, image processing method, and computer-readable recording medium
JP5185077B2 (ja) 画像処理方法、そのプログラム及び画像処理装置
EP4276746A2 (en) Interactive measurement based on three-dimensional representations of objects