以下、図面に基づいて、本件開示の画像処理プログラム、画像処理方法並びに画像処理装置の実施形態について詳細に説明する。
図1に、画像処理装置1の機能構成の一実施形態を示す。なお、図1に示した画像処理装置1の一例は、製品や部品の加工・組み立て過程などを撮影した映像データの入力に応じて、工程名を示すメタデータを自動的に付加する。なお、画像処理装置1への入力は、映像データに限らず、配列順が設定されている複数の画像情報の集合であれば良い。以下の説明では、配列順が設定されている複数の画像情報の集合を画像情報シーケンスと称する。
図1の例では、画像処理装置1は、オフライン処理部100とオンライン処理部110とユーザインタフェース(I/F:Interface)部120とを有する。オンライン処理部110には、例えば、ビデオ入力端子Vinを介して、映像データを入力することができる。
オフライン処理部100は、正解付きデータセット101を有する。この正解付きデータセット101は、例えば、物体認識画像データベース(DB:Database)102と、工程認識映像データベース(DB)103とを含んでいる。オフライン処理部100では、アノテーション対象の映像データの入力に先立って、物体認識画像データベース(DB)102と、工程認識映像データベース(DB)103とに基づく学習が行われる。
物体認識画像DB102には、例えば、工場などの生産現場を撮影した多数の画像が蓄積されている。この物体認識画像DB102に蓄積された各画像に含まれる物体像には、その物体を示す物体名が、それぞれ確定的に付与されている。物体認識画像DB102において、これらの物体像に付与されている物体名は、オブジェクト名の一例である。
また、工程認識映像DB103には、生産現場で様々な製品あるいは部品を組み立てたり加工したりする工程を撮影した映像が蓄積されている。この工程認識映像データベース103に蓄積された映像には、映像によって表される作業過程を示す工程名が、それぞれ確定的に付与されている。この工程認識映像DB103において、各映像に付与された工程名は、メタデータの一例である。また、これらの映像に含まれる画像の少なくとも一部には、個々の画像に含まれる物体像それぞれを示すオブジェクト名が付与されている。
オフライン処理部100は、更に、物体認識学習部104と物体認識モデル105および工程認識学習部106と工程認識モデル107を有する。物体認識学習部104は、上述した物体認識画像DB102に蓄積された情報に基づいて、様々なオブジェクト名と当該オブジェクト名が付与された物体像の特徴との対応関係を学習する。そして、この学習結果に基づいて、画像に含まれる物体像の特徴に対して、その特徴を持つ物体を特定するオブジェクト名を関連付ける物体認識モデル105が構築される。また、工程認識学習部106は、上述した工程認識映像DB103に蓄積された情報に基づいて、映像に登場する様々な物体像を示すオブジェクト名のセットと工程名との対応関係を学習する。そして、この学習結果に基づいて、オブジェクト名のセットに対して、そのオブジェクト名のセットで特定される物体がかかわる作業などを特定する工程名を関連付ける工程認識モデル107が構築される。
図1に示したオンライン処理部110は、オブジェクト名付与部111と仮グループ形成部112と類似度評価部113とグループ結合部114とメタデータ付与部115とアノテーション制御部116と記憶部117とを有する。
製品や部品の加工・組み立て過程などを撮影した映像データは、ビデオ入力端子Vinを介してオンライン処理部110に入力される。入力された映像データは、記憶部117に保持される。オブジェクト名付与部111、仮グループ形成部112、類似度評価部113、グループ結合部114、メタデータ付与部115およびアノテーション制御部116は、この記憶部117に保持された情報を参照して、それぞれの処理を実行する。また、オブジェクト名付与部111、仮グループ形成部112、類似度評価部113、グループ結合部114およびメタデータ付与部115による処理結果は、記憶部117に保持される。
オブジェクト名付与部111は、例えば、映像データに含まれている各フレームの画像に含まれる物体像に対して、上述した物体認識モデル105を利用してオブジェクト名を付与する。
仮グループ形成部112は、例えば、映像データに付加された撮影時刻を示す情報に基づいて、映像データを複数の仮グループに分割する。なお、仮グループ形成部112は、撮影時刻を示す情報に加えて、撮影時の撮像装置の向きや撮影位置などを示す情報を用いて、映像データを仮グループに分割することもできる。撮影位置については、例えば撮像装置にGPS(Global Positioning System)などの測位装置を備え、撮影された映像データに測位装置による測位情報をメタデータとして付与することが考えられる。例えば、撮影装置の向きや撮影位置が異なる場合には、全く別の場面を撮影していることも考えられるため、別の映像データとして更に分割しても良い。
類似度評価部113は、映像データにおいて時系列的に隣接している2つの仮グループの組それぞれについて、後述するようにして類似度を評価する。この類似度評価部113により、類似している旨の評価結果が与えられた隣接する仮グループについて、グループ結合部114は、これらの仮グループを結合する処理を行う。
グループ結合部114は、例えば、類似度評価部113によって隣接している仮グループと類似しているとされる仮グループがなくなるまで仮グループを結合する処理を行ってもよい。
このような結合処理で仮グループを結合して形成された本グループについて、メタデータ付与部115は、上述した工程認識モデル107を用いて工程名を付与する処理を行う。メタデータ付与部115は、例えば、個々の本グループに属する複数の画像情報に記録されたオブジェクト名のセットに対応する工程を示す工程名を、工程認識モデル107を用いて求める。
アノテーション制御部116は、各本グループに付与された工程名および対応する画像情報を記憶部117から取得し、ユーザインタフェース部120の表示部121を介して利用者に提供してもよい。また、アノテーション制御部116は、ユーザインタフェース部120に設けられた指示入力部122を介して利用者が入力した指示を受け取る。アノテーション制御部116は、受け取った利用者からの指示を、オブジェクト名付与部111、類似度評価部113およびグループ結合部114の処理に反映してもよい。例えば、アノテーション制御部116は、利用者からの指示に応じて、物体認識映像DB102、工程認識映像DB103に記憶されたデータを、オンライン処理部110の処理で記憶部117に保持されたデータに基づいて修正してもよい。また、アノテーション制御部116は、オンライン処理部110の処理で記憶部117に保持されたデータを、物体認識映像DB102、工程認識映像DB103に追加してもよい。物体認識学習部104や工程認識学習部106がこの修正され追加されたデータで各モデルを構築することによって、以降の処理に反映することが出来る。
図1に示した例では、類似度評価部113は、判別部132と類似度算出部134とを有する。
判別部132は、記憶部117を参照して、仮グループごとに、当該仮グループに含まれる画像情報に含まれる各物体が背景オブジェクトであるか前景オブジェクトであるかを判別する。判別部132は、例えば、仮グループに含まれる複数の画像情報で表される事象の環境に含まれるオブジェクトを背景オブジェクトとして判別する。また、仮グループに含まれる複数の画像情報で表される事象において変化するオブジェクトを、判別部132は、前景オブジェクトとして判別する。なお、本実施形態において、背景オブジェクトとは、仮グループに含まれる複数画像情報のうち所定数以上の画像情報に含まれ、且つ、これら複数画像情報において位置情報の差(つまり移動量)が、予め定められた移動を判定するための位置閾値より小さい物体像を指す。また、前景オブジェクトとは、背景オブジェクト以外の物体像を指す。なお、上記背景オブジェクトについて、仮グループに含まれる複数画像の全てに含まれるものではなく、所定数以上とする理由は、前景オブジェクトによって遮られ、仮グループに含まれる複数画像の全てには写らない場合があることを考慮したものである。また、位置閾値より小さい、とは、位置閾値が移動ではないと判定するための差の上限値である場合には以下、位置閾値が移動であると判定するための差の下限値である場合には未満を指す。
判別部132は、例えば、各仮グループについて、仮グループに含まれる画像情報に記録された物体を示すオブジェクト名に対応して、当該物体についての判別結果を含む情報を示すオブジェクトテーブルを作成してもよい。各仮グループについて作成されたオブジェクトテーブルは、記憶部117に格納してもよい。
類似度算出部134は、記憶部117を参照し、隣接する2つの仮グループについて、それぞれに対応するオブジェクトテーブルで示される背景オブジェクトに関する類似度を算出する。そして、算出した類似度が所定の第1閾値を超えているか否かを示す判定結果が、類似度評価結果としてグループ結合部114に通知される。
図2に、画像処理装置1のハードウェア構成の一実施形態を示す。図2に示した画像処理装置1は、プロセッサ21と、メモリ22と、ハードディスク装置(HDD:Hard Disk Drive)23と、表示制御部24と、表示装置25と、入力装置26とを含む。更に、画像処理装置1は、光学ドライブ装置28と、通信制御部29を含む。
プロセッサ21と、メモリ22と、HDD23と、表示制御部24と、入力装置26と、光学ドライブ装置28と、通信制御部29とは、バスを介して接続される。また、通信制御部29は、ネットワーク30に接続される。また、画像処理装置1は、例えば、ビデオカメラやデジタルカメラなどの画像入力装置27を含んでもよい。
HDD23には、オペレーティングシステムに加えて、上述した画像情報のグループ化処理およびアノテーション処理を含む画像処理を実行するためのアプリケーションプログラムが格納されている。アプリケーションプログラムは、本件開示の画像処理方法に含まれる各処理を実行するためのプログラムを含む。なお、上述したアプリケーションプログラムは、例えば、コンピュータ読取可能なリムーバブルディスク31に記録して頒布することができる。そして、このリムーバブルディスク31を光学ドライブ装置28に装着して読み込み処理を行うことにより、上述したアプリケーションプログラムは、HDD23にインストールされる。また、インターネットなどのネットワーク30と通信制御部29を介して、上述したアプリケーションプログラムをHDD23にインストールすることもできる。
図2に例示した画像処理装置1は、上述したプロセッサ21、メモリ22などのハードウェアと、オペレーティングシステムおよびアプリケーションプログラムなどのプログラムとが有機的に協働することにより、上述した各種機能を実現する。
図3、図8、図10、図11、図12および図13に、画像処理装置1が画像処理プログラムを実行することにより実行される処理の流れを示す。
図1に示したオブジェクト名付与部111の機能は、図2に示した画像処理装置1が、図3に示すステップ301,ステップ302,ステップ304の処理を実行することによって実現される。また、図1に示した仮グループ形成部112の機能は、画像処理装置1が、図3に示すステップ303の処理を実行することによって実現される。また、画像処理装置1が、ステップ303の処理を実行して得られた処理結果を、メモリ22あるいはHDD23に記憶することにより、図1に示した記憶部117の機能が実現される。図1に示した判別部132の機能は、画像処理装置1が、図3に示すステップ305の処理を実行することによって実現される。そして、画像処理装置1が、ステップ305の処理を実行して得られた処理結果を、メモリ22あるいはHDD23に記憶することにより、図1に示した記憶部117にオブジェクトテーブルが格納される。図1に示した類似度算出部134の機能は、画像処理装置1が、図3に示すステップ306、ステップ307、ステップ308、ステップ310の処理を実行することによって実現される。図1に示したグループ結合部114の機能は、画像処理装置1が、図3に示すステップ306、ステップ309の処理を実行することによって実現される。図1に示したメタデータ付与部115の機能は、画像処理装置1が、図3に示すステップ311の処理を実行することによって実現される。また、図1に示したアノテーション制御部116の機能は、画像処理装置1が、図12のステップ357からステップ359の処理を実行することで実現される。また、図1に示した各部の処理過程で生成される情報は、メモリ22あるいはHDD23などに格納される。
本件開示の画像処理装置は、例えば、図3に示す各手順を実行するためのプログラムをコンピュータに読み込ませ、このプログラムをコンピュータに実行させることによって実現することもできる。更に、インターネットなどのネットワークを介して複数の画像情報を受け取り、図3に示した各手順を含む方法を用いて、グループ化した複数の画像情報それぞれにメタデータを付与するサービスを提供することも可能である。
図3に、画像処理装置による画像処理のフローチャートを示す。また、図4に、画像処理装置1が図3の処理を実行することにより記憶部117に記憶するデータレイアウトの一例を示す。
映像データに含まれる各フレームの画像情報が入力されるごとに、画像処理装置1は、入力された画像情報に含まれる各物体像にオブジェクト名として物体名を付与する処理を行う(ステップ301,302)。
ステップ301,302の処理の過程で、画像処理装置1は、記憶部117に、例えば、映像データに含まれる各フレームの画像データ、これらの画像データに含まれる物体を特定する物体識別情報、及び、これらの画像データにおける物体の位置を特定する位置情報を対応付けて記憶する。
図4(A)は、記憶部117に記憶されている映像データの集合に含まれる映像データを示す映像リストの例を示す。図4(A)に例示した映像リストにおいて、符号「M1」、「M2」は、映像データに付与された映像ID(IDentifier)を示す。映像ID「M1」、「M2」で示される映像データM1、M2に含まれる各フレームの画像データは、個々のフレームを識別するフレームIDに基づいて参照可能なように記憶部117に格納されている。
図4(D)は、フレーム1に含まれる物体像のセットを示す物体リストの例である。図4(D)に示した符号「T1」、「T2」は、フレーム1に含まれる各物体像を識別する物体IDの例を示す。
図4(E−1),(E−2)は、それぞれ物体ID「T1」、「T2」で示される物体T1,T2の物体データの例を示す。各物体データは、対応する物体像に対して、上述したオブジェクト名付与部111が付与した物体名と、当該物体像の画像における位置を示す位置情報を含む。各物体データは、対応する物体像の特徴を表す特徴情報を含んでもよい。なお、図4(D)に示した物体ID「T1」、「T2」と、図4(E−1)、(E−2)に示した物体データとは、ポインタなどによって関連付けられている。
図5に、物体データに含まれる位置情報の例を示す。図5(A),(C),(E)に、物体の位置情報の定義例を示す。図5(B),(D),(F)に、図5(A),(C),(E)に示した各定義例に対応する位置情報の形式の例を示す。
図5(A)は、物体像の位置を、物体像を囲む矩形の中心位置を示す中心座標(Xc,Yc)と、中心位置から矩形のX,Y方向の境界までの距離dx、dyを用いて表す例である。図5(B)に、図5(A)に示した定義例に対応する位置情報の形式の例を示す。
図5(C)は、物体像の位置を、物体像を囲む矩形の頂点の位置を示す頂点座標(Xa,Ya)と、この矩形の幅Wおよび高さHを用いて表す例である。なお、図5(C)は、物体像を囲む矩形の左上の頂点の座標によって、矩形の位置を示す例である。図5(D)に、図5(C)に示した定義例に対応する位置情報の形式の例を示す。
図5(E)は、物体像の位置を、物体像を囲む多角形の各頂点の位置を示す頂点座標(X1,Y1)、(X2,Y2)、…、(Xn,Yn)を用いて表す例である。図5(F)に、図5(E)に示した定義例に対応する位置情報の形式の例を示す。
オブジェクト名の付与がなされた各フレームの画像情報について、画像処理装置1は、当該フレームを編入する仮グループを決定する処理を行う(ステップ303)。画像処理装置1は、例えば、まず、直前のフレームに対応する撮影時刻と現フレームの撮影時刻との差と所定の閾値とを比較する。そして、撮影時刻の差が所定の閾値以下である場合に、画像処理装置1は、現フレームを直前フレームと同一の仮グループに編入する。一方、撮影時刻の差が所定の閾値を超えている場合に、画像処理装置1は、現フレームを直前フレームとは別の新たな仮グループに編入する。なお、入力される映像データに撮影時刻を示す情報が含まれていない場合に、画像処理装置1は、例えば、映像データを所定の時間ごとに分割することにより、複数の仮グループを形成することができる。例えば、画像処理装置1は、1秒間に対応する動画像の範囲、例えばフレーム数ごとに映像データを分割することにより、入力される映像データから複数の仮グループのセットを生成することができる。
図6に、映像データに含まれる各画像情報をグループ化する処理を説明する図を示す。
図6に示した符号M1は、ステップ301で入力された映像データM1を示す。この動画像M1は、符号P1,P2,P3で示したフレームで、撮影時刻情報が不連続となっている。なお、図6においては、映像データの開始からフレームP1までの区間を動画像1、フレームP1〜フレームP2までの区間を動画像2、フレームP2〜フレームP3までの区間を動画像3として示した。また、フレームP3以降の動画像4については、一部のみが図6に示されている。
このような映像データの入力に応じて、画像処理装置1は、撮影時刻情報が連続性を維持している範囲ごとに仮グループを形成する。図6に示した符号G1,G2,G3,G4は、動画像1〜4に対応する仮グループG1〜G4を示す。また、図6に、各仮グループG1〜G4に属する画像に対応して、個々の画像に含まれている物体像に付与された物体名の例を示す。
画像処理装置1は、ステップ303の処理を行うことで生成した仮グループを示す情報を、記憶部117に記憶されている画像情報と関連付けて記憶部117に格納する。
図4(B)は、映像データM1に関連付けられた仮グループリストの例を示す。図4(B)に例示した仮グループリストは、映像データM1に含まれる仮グループG1〜G4を含む各仮グループを識別する仮グループIDのセットを含んでいる。なお、図4(A)に示した動画ID「M1」から図4(B)に示した動画M1の仮グループリストへの矢印は、ポインタによる関連付けを示す。このように、画像処理装置1は、各映像データに関連付けられた仮グループリストを記憶部117に記憶する。
図4(C−1),(C−2)は、各仮グループに含まれる画像データを示すフレームリストの例である。図4(C−1)は、仮グループG1に関連付けられたフレームリストの例である。図4(C−1)に例示したフレームリストは、フレーム1からフレームP1までの画像データを示すフレームID「1」〜「P1」を含む。また、図4(C−2)は、仮グループG2に関連付けられたフレームリストの例である。図4(C−2)に例示したフレームリストは、フレームP1+1からフレームP2までの画像データを示すフレームID「P1+1」〜「P2」を含む。同様にして、画像処理装置1は、仮グループG3,G4を含む全てのグループについて、フレームリストを生成し、生成したフレームリストを記憶部117に記憶する。なお、図4(B)に示した仮グループID「G1」,「G2」から、図4(C−1),(C−2)に示した仮グループG1,G2に対応するフレームリストへの矢印は、ポインタによる関連付けを示す。
上述したステップ303の終了後に、画像処理装置1は、映像データの入力が終了したか否かを判定する(ステップ304)。続きの映像データがある場合に(ステップ304の否定判定)、画像処理部1は、ステップ301に戻って新たな画像情報についての処理を行う。このようにして、ステップ301からステップ304を繰り返して、画像処理装置1は、映像データに含まれる各画像情報について、オブジェクト名の付与と仮グループへの編入処理を行う。そして、映像データに含まれる全ての画像情報についての処理が完了したときに、画像処理装置1は、ステップ304の肯定判定として、ステップ305の処理に進む。
ステップ305で、画像処理装置1は、仮グループごとに、当該仮グループに含まれる画像情報に含まれる各オブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判別する処理を行う。次いで、画像処理装置1は、ステップ306で、仮グループの一つを選択する。そして、選択された仮グループについて、画像処理装置1は、隣接する仮グループとの間の類似度を算出する(ステップ307)。
そして、画像処理装置1は、ステップ307で算出された類似度と所定の第1閾値とを比較し、ステップ307で算出された類似度が所定の第1閾値以上である場合に(ステップ308の肯定判定)、ステップ306で選択した仮グループと隣接する仮グループとを結合する(ステップ309)。なお、画像処理装置1は、ステップ308で用いる第1閾値の値を、例えば、2つの画像データにおいて、同一の物体に対応する物体像の特徴の類似度などに基づいて決定することができる。
図7に、仮グループの結合を説明する図を示す。図7(A)、(B)、(C)は、映像データにおける配列順で隣接する3つの仮グループに含まれる画像情報の一例である。なお、図7(A)、(B)、(C)に示した各画像情報に含まれる各物体像に付与された物体名は、それぞれに対応する物体像に引出し線を付けて示されている。
図7(A)に示した画像情報に含まれる各物体像には、物体名「壁」、「床」、「作業台」、「人物」、「部品A」が付与されている。また、図7(B)に示した例では、上述した各物体名に加えて、物体名「部品A」が付与されたものとは別の物体に物体名「部品B」が付与されている。一方、図7(C)に示した例では、上述した各物体名「部品B」が付与された物体像の変わりに、物体名「工作機械A」が付与された物体像が含まれている。
例えば、図7(A)、(B)、(C)に示した各画像情報を含む仮グループについて、物体名「壁」、「床」、「作業台」がそれぞれ付与された物体像が背景オブジェクトと判別されている場合を考える。この場合に、画像処理装置1は、これらの仮グループ間の類似度を、物体名「壁」、「床」、「作業台」がそれぞれ付与された物体像の類似性に基づいて評価する。
図7(D)に、図7(A)、(B)に示した画像情報にそれぞれ含まれる同一の物体名が付与された物体像の類似度を調べた結果の例を示す。図7(A)、(B)に示した例では、画像情報に含まれる壁や床および作業台を表す物体像は、互いに特徴が似ている。このような場合に、画像処理装置1は、図4(D)に示すように、2つの仮グループに含まれる物体名「壁」、「床」、「作業台」に対応する物体像について、いずれも類似度を上述した第1閾値よりも高く評価する。
このように、複数の背景オブジェクトの類似度が高いと評価される場合には、2つの仮グループに含まれる画像情報は同一の環境において撮影された可能性が高い。したがって、画像処理装置1は、背景オブジェクトに関する類似度の高い隣接する仮グループを結合することにより、同一の環境において撮影された可能性の高い仮グループを結合することができる。
一方、図7(E)に、図7(B)、(C)に示した画像情報にそれぞれ含まれる同一の物体名が付与された物体像の類似度を調べた結果の例を示す。図7(B)、(C)に示した例では、画像情報に含まれる壁を表す物体像は、互いに特徴が似ている。しかしながら、床および作業台表す物体像の特徴が異なっていることは明らかである。このような場合に、画像処理装置1は、図4(E)に示すように、2つの仮グループに含まれる物体名「床」、「作業台」に対応する物体像について、類似度を上述した第1閾値よりも低く評価する。
このように、複数の背景オブジェクトの類似度が低いと評価される場合には、2つの仮グループに含まれる画像情報は異なる環境において撮影された可能性が高い。このような評価結果が得られた2つの仮グループについては、画像処理装置1は、結合を行わず、それぞれの仮グループの独立を維持する。
このようにして、画像処理装置1は、例えば、撮影時刻が大きく異なる仮グループを、背景オブジェクトの類似性が高いことを根拠として、一つに結合することができる。
図6に示した例について、仮グループ2および仮グループ3に属する各画像に共通して含まれている物体名Cで示されるオブジェクトが、各仮グループについてのステップ305の処理で、背景オブジェクトであると判別されている場合について説明する。画像処理装置1は、この物体名Cのオブジェクトの特徴の類似性が高いと判断したときに、これらの仮グループを結合する。これにより、画像処理装置1は、結合した2つの仮グループ2,3に対応する動画像2と動画像3とを、撮影時刻の不連続にかかわらず、同一の作業過程などを撮影している映像データの範囲として扱うことができる。
一方、図6に示した仮グループ3と仮グループ4とは、同一の物体名Cが付与されたオブジェクトの特徴の類似性が低い旨の評価結果が得られる例である。この場合に、画像処理装置1は、仮グループの結合を行わないため、それぞれの仮グループの独立が維持される。また、動画像1に対応する仮グループ1と上述した仮グループ2との間には、同一の物体名が付与された背景オブジェクトが存在しない。このような場合も、画像処理装置1は、それぞれの仮グループの結合を行わないため、それぞれの仮グループの独立は維持される。
図3に示したステップ310で、画像処理装置1は、ステップ309の結合処理で形成された新たな仮グループを含めて、全ての仮グループについて結合可能性を判定する処理を行ったか否かを判定する。このステップ310の否定判定の場合に、処理は、ステップ306に戻る。そして、画像処理装置1は、まだ結合可能性を判定する処理が行われていない仮グループの一つについて、ステップ307〜ステップ309の処理を行う。
このようにして、画像処理装置1は、ステップ306〜ステップ310を繰り返し実行する。そして、画像処理装置は、全ての仮グループについての処理が完了したときに(ステップ310の肯定判定)、ステップ311の処理に進む。
上述したような仮グループの結合処理を繰り返すことにより、画像処理装置1は、入力される映像データにおける撮影時刻の不連続にかかわらず、作業工程などを撮影した映像データのうち、周囲の環境が類似している映像データを結合していくことができる。そして、画像処理装置1は、仮グループの結合に応じて、映像データの区切りを、撮影されている作業工程などの周囲の環境の特徴が不連続となる箇所に近づけていくことができる。したがって、画像処理装置1は、ステップ310の肯定判定の時点で独立して残っている仮グループにそれぞれ対応する動画像の範囲の区切りを、環境の特徴が不連続となる箇所に一致させることができる。このような映像データにおいて、周囲の環境の特徴が不連続となる箇所は、撮影対象の工程の区切りに相当する。したがって、これらの仮グループは、それぞれ異なる工程の進行過程を表す画像情報を含むグループ(以下、本グループとして説明する)である。なお、図6に示した例では、動画像1に対応する仮グループ1はそのまま本グループ1として残っている。また、仮グループ2と仮グループ3との結合により、本グループ2が形成されている。そして、仮グループ4は、本グループ3に含まれている。
現実の製造現場においては、所望の工程について作業過程を撮影する場合に、作業者の休憩時間などのために、作業過程の途中で撮影を一旦中断し、作業の再開に応じて撮影を再開することがある。このような場合には、撮影された映像データの撮影時刻は、撮影を中断した箇所で不連続となる。このような入力映像データに対して本件開示の技術に含まれる、画像処理装置1による仮グループ結合処理を適用すれば、中断前に撮影された動画像に対応する仮グループと再開後に撮影された動画像に対応する仮グループとを結合することができる。そして、所望の工程全体を一貫して撮影した動画像に対応する本グループを形成することができる。
このようにして形成された個々の本グループについて、画像処理装置1は、工程名を示すメタデータを付与する処理を行う(図3のステップ311)。このとき、画像処理装置1は、例えば、記憶部117から、各本グループに含まれる画像情報に記録された全てのオブジェクトに対応するオブジェクト名のセットを取得することができる。そして、画像処理装置1は、取得したオブジェクト名のセットについて、工程認識モデル107を用いて、適合する工程名を特定することができる。
例えば、図6に示した例について説明すると、画像処理装置1は、背景オブジェクトを示す物体名Cとともに、物体名B,D,Eを含むオブジェクト名のセットに基づいて、本グループ2へのメタデータ付与処理を行う。また、図7に示した例について説明すると、画像処理装置1は、背景オブジェクトである「壁」や「床」、「部品A」などとともに、前景オブジェクトである「人物」や「部品B」も考慮して、図7(A),(B)に示した画像を含む動画像の範囲に対応する本グループを対象とするメタデータ付与処理を行う。つまり、画像処理装置1は、個々の本グループに対応する動画像の範囲において一時的に出現する前景オブジェクトも考慮に入れて、工程名を付与する処理を行う。
上述したように、本件開示の画像処理装置1によれば、現実の製造現場で撮影された映像データを、利用者が予め分類に用いる物体名を定義しておくことなく、また、撮影時刻の不連続性などにかかわらず、作業過程のまとまりとしての工程ごとに自動的にグループ化することができる。このようにして、映像データのグループ化の自動化を実現することにより、映像データに含まれる様々な工程を撮影した動画像ごとに工程名を付与するために、適切に分類するという作業を省力化することができる。このような特徴は、製造現場において、多様化する工程それぞれについてのマニュアルなどを作成する作業を支援する上で非常に有用である。
なお、グループ化された動画像に対して付与するメタデータは、動画像に含まれる画像情報に記録されたオブジェクトを示すオブジェクト名のセットに基づいて認識可能な事象であればよく、上述した工程名に限られない。
なお、オブジェクト名のセットから事象を示すメタデータを特定する手法については、非特許文献2などを参照されたい。また、画像情報に含まれるオブジェクトを認識する技術については、非特許文献1などを参照されたい。
次に、各仮グループについて、オブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判別する処理について説明する。
図8に、オブジェクトの判別処理のフローチャートを示す。なお、図8に示す各手順は、図3に示したステップ305に相当する。
図8に示した例では、まず、画像処理装置1は、処理対象の仮グループに含まれる画像情報から、これらの画像情報に記録されているオブジェクト名が付与されたオブジェクトのうち、未選択の一つを検索する処理を行う(ステップ321)。次いで、画像処理装置1は、選択したオブジェクトについて、仮グループ内での出現率RTおよび移動率RDを算出する処理を行う(ステップ322,323)。画像処理装置1は、仮グループ内での出現率RTを、例えば、選択したオブジェクトが記録されている画像情報の数npを仮グループに含まれる画像情報の総数Nで除算した値から求めることができる。また、画像処理装置1は、仮グループ内での移動率RDを、記憶部117に各フレームに対応して記憶されている物体データに基づいて算出する。例えば、図5(B)に示したように、物体データに、物体像の中心位置に基づく位置情報が含まれている場合に、画像処理装置1は、選択したオブジェクトの中心座標(Xc,Yc)及び中心からの距離dx、dyが前のフレームの画像情報における中心座標(Xc,Yc)及び中心からの距離dx、dyと異なっている数ndを仮グループに含まれる画像情報の総数Nで除算した値から移動率RDを求める。また、図5(D)に示したように、物体データに、物体像を囲む矩形の頂点位置に基づく位置情報が含まれている場合に、画像処理装置1は、例えば、選択したオブジェクトの左上の頂点座標(Xa,Ya)及び幅W、高さHが前のフレームの画像情報における左上の頂点座標(Xa,Ya)及び幅W、高さHと異なっている数ndを仮グループに含まれる画像情報の総数Nで除算した値から移動率RDを求める。また、図5(D)に示したように、物体データに、物体像を囲む多角形の頂点位置に基づく位置情報が含まれている場合に、画像処理装置1は、多角形の各頂点座標(X1,Y1)・・・(Xn,Yn)が、前のフレームの画像情報における多角形の各々の座標(X1,Y1)・・・(Xn,Yn)と異なっている数ndを仮グループに含まれる画像情報の総数Nで除算した値から移動率RDを求める。なお、この「異なっている」について、撮影装置のゆれ、例えば人が撮影しているような場合に手ぶれにより完全一致でなくなるケースが考えられるため、完全一致ではなく、手ぶれとして判断可能な一定の閾値を設定し、この閾値以上の差がある場合に、「異なっている」と判断するよう構成しても良い。
そして、画像処理装置1は、このようにして算出した仮グループ内での出現率RTおよび移動率RDを、それぞれ出現率についての第2閾値Thtおよび移動率についての第3閾値Thdと比較する(ステップ324)。そして、画像処理装置1は、出現率RTが第2閾値Thtより大きく、かつ、移動率RDが第3閾値Thd未満である場合に(ステップ324の肯定判定)、当該オブジェクトは背景オブジェクトであると判別する(ステップ325)。次いで、画像処理装置1は、仮グループに含まれる各画像情報におけるこのオブジェクトの特徴量に基づいて、このオブジェクトの特徴の仮グループにおける平均ベクトルを算出する処理を行う(ステップ326)。例えば、画像処理装置1は、仮グループに含まれる各画像情報に基づいて、背景オブジェクトに分類された物体像の画像特徴として、物体像の部分の色ヒストグラムを求める。そして、画像処理装置1は、各画像情報からそれぞれ求められた色ヒストグラムを示すベクトルを平均化することにより、仮グループにおける当該オブジェクトの平均的な特徴を示す平均ベクトルを得る。なお、画像処理装置1は、この処理において、物体像の画像特徴として、上述した色ヒストグラムの代わりに輝度ヒストグラムなどの他の画像特徴を用いるように構成しても良い。また、画像処理装置1は、各画像情報に含まれる個々のオブジェクトにオブジェクト名を付与する際に、それぞれのオブジェクトについて特徴量を抽出し、オブジェクト名付与処理の過程で各画像情報に関連づけて記憶部117に記憶した特徴量に基づいて、上述した平均ベクトルを求めるように構成しても良い。このような平均ベクトルを利用することによって、画像処理装置1は、同じ物体として認識されたが、色が異なる物体像である場合には別の背景オブジェクトとして識別することができる。例えば、前述した工程によって壁や床の少なくとも一部の色が異なる場合など、背景オブジェクトとして認識された物体像の色の異なりによって別の工程(状況・背景)の画像として認識する必要がある場合に、画像処理装置1は、このような平均ベクトルを利用することによって、別の工程(状況・背景)として認識することができ、分類精度を向上させることができる。
一方、画像処理装置1は、ステップ322,323で算出された仮グループ内での出現率RTあるいは移動率RDが、上述した条件を満たさない場合に(ステップ324の否定判定)、当該オブジェクトは前景オブジェクトであると判別する(ステップ327)。
ステップ328で、画像処理装置1は、上述したようにして得られた判別結果に基づいて、仮グループに対応して記憶部117に記憶されたオブジェクトテーブルを更新する。画像処理装置1は、判別対象のオブジェクトを背景オブジェクトと判別した場合に、ステップ328で、この判別結果とともにステップ326で算出された平均ベクトルと当該オブジェクトの位置を示す情報とをオブジェクト名に対応づけて記憶部117のオブジェクトテーブルに格納する処理を行う。なお、画像処理装置1は、オブジェクトテーブルに記憶するオブジェクトの位置を示す情報を、仮グループに含まれる各フレームの画像情報に関連づけて記憶部117に記憶された物体データに含まれる位置情報に基づいて算出しても良い。一方、画像処理装置1は、判別対象のオブジェクトを前景オブジェクトと判別した場合は、その旨を示す情報を、オブジェクト名に対応づけて記憶部117のオブジェクトテーブルに記憶する。
その後、画像処理装置1は、ステップ329において、全てのオブジェクトについての判別が完了したか否かを判定する。画像処理装置1は、このステップ329の否定判定の場合に、ステップ321の処理に戻り、新たなオブジェクトについての判別処理を開始する。このようにして、画像処理装置1は、ステップ321からステップ329の処理を繰り返し実行し、オブジェクト名が付与された全てのオブジェクトについての判別処理が完了したときに(ステップ329の肯定判定)、判別処理を終了する。
図9(A)に、上述した判別処理によって得られるオブジェクトテーブルの一例を示す。図9(A)の例は、オブジェクト名「床」、「壁」、「作業台」、「人物」、「部品A」が付与されたオブジェクトが記録された一連の画像情報について、画像処理装置1が上述した判別処理を行った結果を示している。
図9(A)に示したオブジェクトテーブルの例は、各オブジェクト名に対応して、算出された出現率RT、移動率RDとともに判別結果を含む。また、図9(A)に例示したオブジェクトテーブルは、背景オブジェクトであると判別されたオブジェクトを示すオブジェクト名「床」、「壁」、「作業台」、「部品A」に対応して、それぞれの位置を示す位置情報Pf,Pw,Pd,Ppを含む。また、図9(A)において、符号Vf,Vw,Vd,Vpは、対応する各オブジェクトの画像特徴量の平均ベクトルである。なお、図9(A)に例示したオブジェクトテーブルでは、背景オブジェクトであると判別されたオブジェクトは、オブジェクト名に対応する「背景/前景」欄に符号「背景」を付して示した。一方、前景オブジェクトであると判別されたオブジェクトは、オブジェクト名に対応する「背景/前景」欄に符号「前景」を付して示した。
なお、オブジェクトの判別処理において、判別の指標となる出現率RTを求めるステップ322と移動率RDを求めるステップ323の実行順序は任意でよい。また、別の指標を合わせて用いて、個々のオブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判定することもできるし、上述した出現率RT、移動率RDのいずれかをその別の指標と組み合わせて判定に用いることもできる。
また、個々の仮グループにおいて、判別対象のオブジェクトについて求めた出現率RTや移動率RDのような指標に基づいて判別処理を行う代わりに、オブジェクト名に対応して予め決定した判別結果を示す判別テーブルを用いることもできる。
図9(B)に、判別テーブルの一例を示す。図9(B)の例では、個々のオブジェクト名に対応して、それらが付与されるオブジェクトが背景オブジェクトであるか前景オブジェクトであるかが前景/背景欄に示されている。
このような判別テーブルは、例えば、図1に示した正解付きデータセット101に含まれる工程認識映像データベース103に蓄積される様々な工程を撮影した映像データに基づいて、予め準備しておくことができる。これらの映像データに含まれる画像情報には、多種多様なオブジェクトが記録されている。そして、それぞれのオブジェクトについて、映像データによって表されている工程において環境の一部を表す背景オブジェクトであるか、工程の進捗過程で変化する前景オブジェクトであるかを判断しておくことができる。このような判断は、例えば、工程認識映像データベース103に、映像データを蓄積する際などに、オブジェクト名や工程名を付与する作業と一緒に行うことができる。
次に、隣接する2つの仮グループ間の類似度を評価する処理について説明する。隣接する2つの仮グループ間の類似度は、例えば、これらの仮グループに対応して生成されたオブジェクトテーブルに含まれる背景オブジェクトの平均ベクトルに基づいて、次のようにして求めることができる。
図10に、類似度評価処理のフローチャートを示す。図10に示す各手順は、図3に示したステップ307およびステップ308に相当する処理の一例である。
まず、画像処理装置1は、隣接する2つの仮グループにそれぞれ対応して記憶部117に記憶された2つのオブジェクトテーブルを比較することにより、両者に共通する背景オブジェクトを検出する(ステップ331)。画像処理装置1は、ステップ331において、少なくとも一つの共通する背景オブジェクトを検出した場合に(ステップ332の肯定判定)、ステップ333の処理に進む。
ステップ333で、画像処理装置1は、記憶部117に記憶された上述の2つのオブジェクトテーブルから、ステップ331で検出した共通の背景オブジェクトそれぞれに対応する位置情報および平均ベクトルを取得する。そして、画像処理装置1は、共通する背景オブジェクトごとに、各オブジェクトテーブルから取得した位置情報および平均ベクトルに基づいて類似度を算出する(ステップ334)。画像処理装置1は、各背景オブジェクトの位置に関する類似度を、例えば、2つの仮グループに対応して取得された位置情報で示される位置間の距離が小さいほど、類似度の値が大きくなるように求める。同様に、画像処理装置1は、各背景オブジェクトの画像特徴に関する類似度を、例えば、2つの仮グループに対応して取得された平均ベクトルで示される特徴量の距離が小さいほど、類似度の値が大きくなるように求める。次に、画像処理装置1は、共通する各背景オブジェクトについての類似度に基づいて、2つの仮グループ間の類似度を算出する(ステップ335)。例えば、画像処理装置1は、2つの仮グループ間の類似度として、各背景オブジェクトについて求めた位置に関する類似度および画像特徴に関する類似度の総和を求めても良い。
画像処理装置1は、このようにして算出した2つの仮グループ間の類似度を所定の第1閾値と比較する(ステップ336)。画像処理装置1は、2つの仮グループ間の類似度が第1閾値以上である場合に(ステップ336の肯定判定)、評価対象の2つの仮グループ間の類似度が高い旨の評価結果を出力する(ステップ337)。一方、画像処理装置1は、ステップ332あるいはステップ336の否定判定の場合に、評価対象の2つの仮グループ間の類似度は低い旨の評価結果を出力する(ステップ338)。
なお、画像処理装置1は、上述したステップ333からステップ338の処理を、各オブジェクトに対応する位置情報に注目して行っても良い。
上述したような類似度評価処理により、画像処理装置1は、類似度が高い旨の評価結果が得られた隣接する2つの仮グループを結合する際に、これらの仮グループに対応するオブジェクトテーブルを合成することができる。
図11に、仮グループを結合する処理のフローチャートを示す。図11に示す各手順は、図3に示したステップ309に相当する処理の一例である。
画像処理装置1は、まず、結合対象となる2つの仮グループに対応する動画像を結合する(ステップ341)。この結合処理により、2つの仮グループに含まれる画像情報を含む新しい1つの仮グループが形成される。
次いで、画像処理装置1は、結合された2つの仮グループにそれぞれ対応していたオブジェクトテーブルを合成する(ステップ342)。これにより、例えば、2つの仮グループの少なくとも一方に含まれているオブジェクトに対応する情報を含むオブジェクトテーブルが生成される。
次に、画像処理装置1は、結合処理によって新たに生成された仮グループに含まれる画像情報の中から、複数の代表画像を抽出する(ステップ343)。画像処理装置1は、例えば、新たに生成された仮グループにおいて均等に分布する画像情報を代表画像として抽出する。例えば、画像処理装置1は、所定の時間に対応する複数のフレームごとに、1つの代表画像を抽出すればよい。
そして、画像処理装置1は、抽出された代表画像に基づいて、ステップ342で合成されたオブジェクトテーブルで示される全てのオブジェクトについて、再び、背景オブジェクトであるか前景オブジェクトであるかを判別する(ステップ344)。このとき、画像処理装置1は、例えば、各オブジェクトの出現率や移動率として、代表画像の集合の中での出現率および移動率を算出する。そして、代表画像の集合の中での各オブジェクトの出現率および移動率が、図8のステップ324の説明で示した条件を満たすか否かに基づいて、背景オブジェクトと前景オブジェクトとを判別する。なお、画像処理装置1は、背景オブジェクトであると判別したオブジェクトについて、図8のステップ326と同様の処理を、代表画像の集合について行う。そして、画像処理装置1は、この処理により、オブジェクトの特徴量の仮グループ内での平均を示す平均ベクトルを算出する。
画像処理装置1は、このようにして得られた判別結果を、ステップ345において、新たに形成された仮グループに対応して記憶部117に記憶されたオブジェクトテーブルに反映する。そして、画像処理部1は、このオブジェクトテーブルを、結合処理によって形成された仮グループとこれに隣接する別の仮グループとの間の類似度評価処理に用いる。
次に、上述したような仮グループ結合処理を経て形成される本グループごとに、その本グループに含まれる動画像で表される事象を示すメタデータを付与する処理について説明する。
図12、図13に、メタデータ付与処理のフローチャートを示す。なお、図12、図13に示すフローチャートは、同一の番号が付された端子で示した箇所で互いに接続されている。なお、図12、図13に示す各手順は、図3に示したステップ311に相当する。
画像処理装置1は、まず、未処理の本グループから順次に付与対象の本グループを選択し、選択した本グループに対応して記憶部117に記憶されたオブジェクトテーブルを取得する(ステップ351)。
次に、画像処理装置1は、工程認識モデル107(図1参照)を用いて、オブジェクトテーブルに含まれる全てのオブジェクト名を含むセットに適合する工程を特定する処理を行う(ステップ352)。
図14に、工程認識モデル107を説明する図を示す。図14(A)に、図1に示した正解付きデータセット101に含まれる工程認識データベース103の一例を示す。また、図14(B)に、図14(A)に示される工程認識データベース103に含まれる映像データから抽出される工程認識テーブルの一例を示す。
図14(A)に示される工程認識データベース103は、複数の映像データを含んでいる。これらの映像データには、それぞれ工程名を示すメタデータが付与されている。また、個々の映像データに含まれる各画像情報には、それぞれの画像情報に含まれるオブジェクトを示すオブジェクト名が付与されている。
したがって、画像処理装置1は、個々の映像データに含まれる画像情報に付与されたオブジェクト名を収集することにより、工程名に対応するオブジェクト名のセットを取得することができる。そして、画像処理装置1は、このオブジェクト名のセットに含まれる個々のオブジェクト名で示されるオブジェクトについて、上述したステップ321〜ステップ329と同様の判別処理を行う。
画像処理装置1は、この判別処理で得られる判別結果を、例えば、全てのオブジェクト名に対応して、それぞれのオブジェクトが、各工程において背景オブジェクトあるいは前景オブジェクトとして含まれているか、含まれていないかを示す工程認識テーブルとして表すことができる。なお、図14(B)に示す工程認識テーブルの例では、各オブジェクトが背景オブジェクトとして含まれる工程を、オブジェクト名と工程名とが交差する欄に符号「背景」を付して示した。また、各オブジェクトが前景オブジェクトとして含まれる工程を、オブジェクト名と工程名とが交差する欄に符号「前景」を付して示した。一方、個々のオブジェクトが記録された画像情報が含まれていない映像データに対応する工程を、オブジェクト名と工程名とが交差する欄に符号「−」を付して示した。
画像処理装置1の工程認識モデル107では、例えば、上述した工程認識テーブルに基づいて、付与対象の本グループに対応するオブジェクトテーブルで示されたオブジェクト名のセットと、各工程名に対応するオブジェクト名のセットの一致度を評価する。画像処理装置1は、個々のオブジェクト名に対応する背景/前景の分類結果についての一致/不一致も考慮に入れて、この一致度の評価を行うことができる。画像処理装置1は、図12に示したステップ352の処理で、この評価結果に基づいて、付与対象の本グループに対応するオブジェクト名のセットに最も一致度の高いセットに対応する工程名を特定する。
なお、画像処理装置1は、ステップ352の処理において、背景オブジェクトに注目して、オブジェクトテーブルで示されたオブジェクト名のセットと、各工程名に対応するオブジェクト名のセットの一致度を評価してもよい。
そして、画像処理装置1は、ステップ352で特定した工程名を、付与対象の本グループに含まれる動画像を修飾するメタデータとして付与する(ステップ353)。次いで、画像処理装置1は、全ての本グループについてメタデータの付与処理が完了したか否かを判定する(ステップ354)。
画像処理装置1は、まだメタデータの付与が完了していない本グループがある場合に(ステップ354の否定判定)、ステップ351の処理に戻る。そして、画像処理装置1は、次の本グループについてのメタデータ付与処理を開始する。画像処理装置1は、上述したステップ351〜ステップ354の処理を繰り返すことにより、全ての本グループについてのメタデータ付与処理を完了させることができる。
図12、図13に示したフローチャートの例では、画像処理装置1は、各本グループについてのメタデータ付与処理が一旦完了した後に(ステップ354の肯定判定)、ステップ355以下の処理により、メタデータ付与結果の検証を行う。
ステップ355で、画像処理装置1は、上述した処理で付与されたメタデータに対応するオブジェクト名のセットと、各本グループに対応するオブジェクト名のセットとの整合性を検査する処理を行う。画像処理装置1は、例えば、検証対象の本グループに対応するオブジェクト名のセットの中の、この本グループに付与された工程名に対応するオブジェクト名のセットに含まれていないオブジェクト名を、不整合箇所として検出する。画像処理装置1は、例えば、上述した工程認識テーブルに工程名に対応して示されたオブジェクト名のセットを用いて、不整合箇所の検出を行っても良い。
画像処理装置1は、ステップ355の処理で、上述したような不整合箇所が検出されない場合に(ステップ356の否定判定)、ステップ357の処理に進む。
画像処理装置1は、ステップ357で、メタデータ付与結果の表示を行う。例えば、画像処理装置1は、各本グループに含まれる画像情報を表す映像とともに、この本グループに付与されたメタデータを示すテキスト情報を図1に示した表示部121に表示させる。更に、画像処理装置1は、本グループに対応する映像とともに、本グループに属する個々の画像情報に含まれる各オブジェクトに付与されたオブジェクト名を表示させてもよい。このようにして、各本グループに対応する映像と、当該映像について本件開示の画像処理技術によって階層的に付与されたメタデータを含むアノテーション結果とを合わせて表示部121に表示させることで、利用者の確認に供することができる。このアノテーション結果には、一連の画像情報を結合して形成された本グループに付与されたメタデータと、本グループに結合された個々の画像情報に記録されたオブジェクトに付与されたメタデータとが含まれている。
画像処理装置1は、上述したようにしてメタデータの付与結果が表示されている間に、図1に示したユーザインタフェース部120に設けられた指示入力部123を介して、利用者からの付与結果に関する修正指示の入力を受け付けることができる。
画像処理装置1は、利用者からの修正指示の入力を受け付けなかった場合に(ステップ358の否定判定)、本件開示の画像処理技術によって付与されたメタデータが、利用者によって確認されたと判断する。この場合に、画像処理装置1は、入力された映像データについて、メタデータを付与する処理を、その検証処理も含めて終了する。
一方、画像処理装置1は、利用者からの修正指示の入力を受け付けた場合に(ステップ358の肯定判定)、入力された修正指示に従って、ステップ359の処理を行うことにより、利用者からの修正指示をアノテーション結果に反映することができる。画像処理装置1は、このステップ359で、例えば、指定された本グループに付与される工程名あるいは指定されたオブジェクトに付与されるオブジェクト名を修正することができる。
画像処理装置1は、ステップ359において、本グループのいずれかに付与される工程名のみを修正し、オブジェクト名の修正を行わなかった場合に(ステップ360の否定判定)、ステップ357の処理に戻る。そして、画像処理装置1は、修正が反映されたアノテーション結果を表示部121に表示させることにより、修正されたアノテーション結果を利用者に提供する。
一方、画像処理装置1は、ステップ360の肯定判定の場合および上述したステップ355で不整合が検出された場合(ステップ356の肯定判定)に、後述するアノテーション処理のやり直しを行うことができる。
画像処理装置1は、ステップ356の肯定判定の場合に、図12および図13において、番号1を付した端子で示した接続関係に従ってステップ361の処理に進む。ステップ361で、画像処理装置1は、不整合箇所として検出されたオブジェクト名が付与されたオブジェクトに対して、オブジェクト名を再付与する処理を行う。画像処理装置1は、例えば、オブジェクト名の候補を、当該本グループに対してステップ353で付与された工程名に対応するオブジェクト名のセットに限定して、オブジェクト名の再付与処理を行っても良い。画像処理装置1は、例えば、当該本グループに付与された工程名に対応して、背景オブジェクトあるいは前景オブジェクトとして工程認識テーブルに示されているオブジェクト名を再付与処理でのオブジェクト名の候補とする。画像処理装置1は、このような限定を適用することにより、不整合箇所として検出されたオブジェクト名を、本グループに付与された工程名に即して修正することができる。画像処理装置1は、上述したステップ361の処理の終了後に、ステップ362の処理に進む。
一方、画像処理装置1は、利用者からの指示に応じて、オブジェクト名を修正した場合に(ステップ360の肯定判定)、図12および図13において、番号3を付した端子で示した接続関係に従ってステップ362の処理に進む。
このステップ362で、画像処理装置1は、オブジェクト名の修正対象が背景オブジェクトであるか否かを判定する。画像処理装置1は、修正対象が前景オブジェクトであった場合に(ステップ362の否定判定)、このオブジェクトを含む本グループに対応する動画像の範囲を維持する。画像処理装置1は、ステップ362の否定判定の場合に、図12、図13において、番号2を付した端子で示した接続関係に従って、ステップ351の処理に戻る。そして、画像処理装置1は、修正が反映されたオブジェクトテーブルに基づいて、このオブジェクトに対応する本グループについて、工程名を示すメタデータを付与する処理を行う。
一方、画像処理装置1は、修正対象が背景オブジェクトであった場合に(ステップ362の肯定判定)、ステップ363の処理に進む。この修正に伴って、本グループの範囲が変化する可能性があるためである。ステップ363で、画像処理装置1は、オブジェクト名が修正された背景オブジェクトを含む本グループと、この本グループに隣接する本グループとの間の類似度を再評価する処理を行う。画像処理装置1は、例えば、図10に示したステップ331からステップ338の処理を再評価対象の本グループについて行うことにより、ステップ363の再評価処理を行っても良い。
次いで、画像処理装置1は、再評価処理で得られた類似度が第1閾値以上であるか否かを判定する(ステップ364)。そして、画像処理装置1は、このステップ364の肯定判定の場合に、図11に示したステップ341からステップ345と同様にして、本グループを結合する処理を行う(ステップ365)。その後、画像処理装置1は、ステップ366において、ステップ365の結合処理によって形成された本グループと、これに隣接する本グループとを、類似度の評価対象に設定した後、ステップ363の処理に戻る。
画像処理装置1は、図13に示したステップ363からステップ366の処理を、ステップ364において、再評価対象の本グループ間の類似度が第1閾値未満であるとされるまで繰り返す。これにより、画像処理装置1は、上述した背景オブジェクトについてのオブジェクト名の修正に伴って、結合される可能性のある本グループを全て検出して結合させることができる。
そして、画像処理装置1は、再評価対象の本グループについて求められた類似度が第1閾値未満となったときに(ステップ364の否定判定)、図12、図13において、番号2を付した端子で示した接続関係に従って、ステップ351の処理に戻る。その後、画像処理装置1は、上述した結合処理によって形成された新たな本グループについて、工程名を示すメタデータを付与する処理を行う。
本件開示の画像処理技術は、映像データに限らず、例えば、複数の静止画像の配列を含む画像情報シーケンスにも適用することができる。
図15に、画像情報シーケンスのグループ化処理を説明する図を示す。また、図16に、画像処理装置による画像処理の別例のフローチャートを示す。なお、図16に示した手順のうち、図3に示した手順と同等のものについては、同一の符号を付して示し、その説明は省略する。
図15に示した例では、画像処理装置1は、画像情報シーケンスに含まれる個々の静止画像を、それぞれ仮グループとして扱う。つまり、画像処理装置1は、入力される画像情報シーケンスに含まれる個々の静止画像を、それぞれ異なる仮グループに編入する(図16のステップ371)。なお、映像データに含まれる画像情報毎に時刻情報が記録されている場合には上述のフレームを静止画像として読み替えても良い。また、映像データに時刻情報が含まれていない場合に、映像データに含まれる各フレームの画像情報を、静止画像の配列として捉えてもよい。
そして、画像処理装置1は、個々の静止画像に記録されている物体像ごとに、それぞれオブジェクト名を付与する(ステップ372)。図15に示した例では、個々の静止画像に対応して、それぞれの静止画像に記録されている物体像に付与されたオブジェクト名のリストが示されている。
次いで、画像処理装置1は、図9(B)に示した判別テーブルを用いて、個々の静止画像においてオブジェクト名が付与された物体像について、背景オブジェクトであるか前景オブジェクトであるかを判別する処理を行う(ステップ373)。ここまでの処理により、画像処理装置1は、それぞれ単一の静止画像を含む個々の仮グループについて、その仮グループに含まれる画像情報に記録されたオブジェクト名および判別結果を含むオブジェクトテーブルを生成する。また、画像処理装置1は、各静止画像の画像データ、これらの画像データに含まれる物体を特定する物体識別情報、及び、これらの画像データにおける物体の位置を特定する位置情報を対応付けて記憶する記憶部117に、各仮グループについて生成したオブジェクトテーブルを、仮グループと関連付けて記憶する。
画像処理装置1は、このオブジェクトテーブルに基づいて、上述したステップ306〜ステップ310と同様にして、結合可能な仮グループを結合して本グループを形成する処理を行うことができる。図15に示した例では、画像処理装置1は、仮グループ1,2に共通する物体名Aが付与されたオブジェクトの類似性に基づいて、これらの仮グループを結合した本グループ1を形成している。また、同様に、画像処理装置1は、仮グループ3〜7に共通する物体名Cが付与されたオブジェクトの類似性に基づいて、これらの仮グループを結合した本グループ2を形成している。なお、図15に示した例では、画像処理装置1は、仮グループ8に含まれる物体名Cが付与されたオブジェクトと、本グループ2の形成の際に結合された仮グループ3〜7に共通する物体名Cが付与されたオブジェクトとの類似性が低い場合を示している。
このように、本件開示の画像処理技術によれば、連続して撮影された静止画像の配列から、個々の事象の推移を表す範囲をそれぞれ分離し、それぞれの事象を示すメタデータを付与することができる。
なお、映像データに画像情報に伴って記録されている音声情報を、本件開示の画像処理技術によるメタデータの付与に利用することも可能である。
例えば、画像処理装置1は、個々の仮グループについて、音声情報のボリュームを示す数値などを補助的なオブジェクトとして抽出することができる。そして、画像処理装置1は、このような音声情報に対応する補助的なオブジェクトの共通性を、仮グループの結合処理の際に考慮することにより、周囲の騒音の大きさなどに基づいて、撮影された場面の変化を検出してもよい。
更に、画像処理装置1は、音声情報に対応するオブジェクトとして、周波数スペクトルなどの音声情報の特徴を表す情報を抽出することもできる。また、画像処理装置1は、工場に設置された個々の装置などの作動音についての学習を通して、音声情報の特徴に基づいて、当該音声を特定する音声識別情報を出力する音声認識モデルを構築しても良い。そして、画像処理装置1は、このような音声認識モデルを用いて、作動音や警告音などを、物体像と同等のオブジェクトの一つとして抽出してもよい。画像処理装置1は、このような作動音や警告音に対応して抽出されたオブジェクトに、オブジェクト名を付与することができる。そして、画像処理装置1は、物体像などと同様に、作動音や警告音に対応するオブジェクトを、仮グループ間の類似度の評価などに用いることができる。