JP2012185730A

JP2012185730A - 画像処理プログラムおよび画像処理方法並びに画像処理装置

Info

Publication number: JP2012185730A
Application number: JP2011049304A
Authority: JP
Inventors: Takayuki Baba; 孝之馬場; Shugo Nakamura; 秋吾中村; Masaki Ishihara; 正樹石原; Masahiko Sugimura; 昌彦杉村; Susumu Endo; 進遠藤; Yusuke Uehara; 祐介上原; Daiki Masumoto; 大器増本; Shigemi Osada; 茂美長田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2012-09-27
Anticipated expiration: 2031-03-07
Also published as: US8731304B2; US20120230589A1; JP5716464B2

Abstract

【課題】画像に含まれる物体を特定する定義情報が無くても、複数の画像を自動的に分類する。
【解決手段】画像データ、該画像データ内に含まれる物体を特定する物体識別情報、及び、該画像データにおける該物体の位置を特定する位置情報を対応付けて記憶する記憶手段を参照して複数の画像データに含まれる同一の物体識別情報を取得し、前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得し、前記取得した位置情報間の差を求め、前記位置情報間の差と所定の位置閾値とを比較し、前記位置情報間の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同じ分類にするか否かを決定する。
【選択図】図１

Description

本件開示の発明は、複数の画像情報を分類するための画像処理プログラムおよび画像処理方法並びに画像処理装置に関する。

画像に代表されるマルチメディアデータの集積から所望の情報を検索するための技術の一つとして、個々のマルチメディアデータに含まれる物体の像などに物体名などを示すメタデータを付与するアノテーション技術がある。

例えば、静止画像に含まれる複数の人物の顔についての認識結果に基づいて、顔の部分の画像それぞれに人物名などを示すタグを付与する技術などが、アノテーション技術に含まれる(非特許文献１)。個々の画像に含まれる物体の像に付与されるタグなどは、例えば、個々の画像に含まれる物体の像の色や形状の特徴と、利用者により予め認識したい物体毎に用意された物体の画像の色や形状の特徴との類似性に基づいて決定される。

また、静止画像に含まれる物体の組み合わせなどの情報に基づいて、静止画像に捉えられたシーン認識を行う技術も提案されている(非特許文献２)。この技術では、利用者により予め分類された複数画像に含まれる物体の情報を基に、利用者により予め用意された物体の組み合わせ情報と情景の種類を示すメタデータとの対応情報を参照して、物体の情報と一致する物体の組み合わせ情報を検出し、この複数画像に対して、検出した組み合わせ情報に対応する情景の種類を示すメタデータが付与される。

また一方、映画などの動画像データのうち、予め利用者により所定の時間に区切られた動画像データについて、利用者が指定した人物や物体の示す部分画像を含む部分を特定し、この部分画像を含む部分に関連付けて、この部分画像のメタデータとして予め指定されたメタデータを付与する技術も提案されている(特許文献１)。

特開２００８−１８１５１５公報

T. Malisiewicz and A.A. Efros, "Recognition by association via learning pre-exemplar distances," CVPR, 2008 Takayuki Baba and Tsuhan Chen (Cornell Univ.):"Object-Driven Image Group Annotation." Proceedings of 2010 IEEE 17th International Conference on Image Processing (ICIP2010), pp. 2641-2644, September 26-29, (2010).

上述した従来の技術は、利用者によって予め用意された物体の特徴との類似性に基づき、静止画像に含まれる物体を認識し、この物体について利用者により予め用意されたメタデータを付与することは出来る。また、利用者によって予め用意された物体の特徴との類似性に基づき、利用者により選択された範囲の動画像に含まれる物体を認識し、この物体について利用者により予め用意されたメタデータを複数のフレームに渡って付与することも出来る。さらに、利用者によって予め分類された静止画像に含まれる物体の情報を基に、利用者により予め用意された物体の組み合わせ情報に対応する情景の種類を示すメタデータを付与することも出来る。

しかし、いずれの従来技術でも、画像に含まれる物体を特定する定義情報が定義されていないと、複数の画像を分類することはできなかった。

上述した課題を解決するため、本発明の一つの観点による画像処理プログラムは、画像データ、該画像データ内に含まれる物体を特定する物体識別情報、及び、該画像データにおける該物体の位置を特定する位置情報を対応付けて記憶する記憶手段を参照して複数の画像データに含まれる同一の物体識別情報を取得し、前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得し、前記取得した位置情報間の差を求め、前記位置情報間の差と所定の位置閾値とを比較し、前記位置情報間の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同じ分類にするか否かを決定する、処理をコンピュータに実行させることを特徴とする。

本件開示の画像処理プログラム、画像処理方法並びに画像処理装置によれば、画像に含まれる物体を特定する定義情報が無くても、複数の画像を自動的に分類することが可能となる。

画像処理装置の機能構成の一実施形態を示す図である。画像処理装置のハードウェア構成の一実施形態を示す図である。画像処理装置による画像処理のフローチャートである。記憶部に記憶するデータレイアウトの一例を示す図である。位置情報の例を示す図である。映像データに含まれる各画像情報をグループ化する処理を説明する図である。仮グループの結合を説明する図である。オブジェクトの判別処理のフローチャートである。オブジェクトテーブルおよび判別テーブルの例を示す図である。類似度評価処理のフローチャートである。仮グループを結合する処理のフローチャートである。メタデータ付与処理のフローチャート(その１)である。メタデータ付与処理のフローチャート(その２)である。工程認識モデルを説明する図である。画像シーケンスのグループ化処理を説明する図である。画像処理装置による画像処理の別例のフローチャートである。

以下、図面に基づいて、本件開示の画像処理プログラム、画像処理方法並びに画像処理装置の実施形態について詳細に説明する。

図１に、画像処理装置１の機能構成の一実施形態を示す。なお、図１に示した画像処理装置１の一例は、製品や部品の加工・組み立て過程などを撮影した映像データの入力に応じて、工程名を示すメタデータを自動的に付加する。なお、画像処理装置１への入力は、映像データに限らず、配列順が設定されている複数の画像情報の集合であれば良い。以下の説明では、配列順が設定されている複数の画像情報の集合を画像情報シーケンスと称する。

図１の例では、画像処理装置１は、オフライン処理部１００とオンライン処理部１１０とユーザインタフェース(Ｉ／Ｆ：Interface)部１２０とを有する。オンライン処理部１１０には、例えば、ビデオ入力端子Ｖｉｎを介して、映像データを入力することができる。

オフライン処理部１００は、正解付きデータセット１０１を有する。この正解付きデータセット１０１は、例えば、物体認識画像データベース(ＤＢ：Database)１０２と、工程認識映像データベース(ＤＢ)１０３とを含んでいる。オフライン処理部１００では、アノテーション対象の映像データの入力に先立って、物体認識画像データベース(ＤＢ)１０２と、工程認識映像データベース(ＤＢ)１０３とに基づく学習が行われる。

物体認識画像ＤＢ１０２には、例えば、工場などの生産現場を撮影した多数の画像が蓄積されている。この物体認識画像ＤＢ１０２に蓄積された各画像に含まれる物体像には、その物体を示す物体名が、それぞれ確定的に付与されている。物体認識画像ＤＢ１０２において、これらの物体像に付与されている物体名は、オブジェクト名の一例である。

また、工程認識映像ＤＢ１０３には、生産現場で様々な製品あるいは部品を組み立てたり加工したりする工程を撮影した映像が蓄積されている。この工程認識映像データベース１０３に蓄積された映像には、映像によって表される作業過程を示す工程名が、それぞれ確定的に付与されている。この工程認識映像ＤＢ１０３において、各映像に付与された工程名は、メタデータの一例である。また、これらの映像に含まれる画像の少なくとも一部には、個々の画像に含まれる物体像それぞれを示すオブジェクト名が付与されている。

オフライン処理部１００は、更に、物体認識学習部１０４と物体認識モデル１０５および工程認識学習部１０６と工程認識モデル１０７を有する。物体認識学習部１０４は、上述した物体認識画像ＤＢ１０２に蓄積された情報に基づいて、様々なオブジェクト名と当該オブジェクト名が付与された物体像の特徴との対応関係を学習する。そして、この学習結果に基づいて、画像に含まれる物体像の特徴に対して、その特徴を持つ物体を特定するオブジェクト名を関連付ける物体認識モデル１０５が構築される。また、工程認識学習部１０６は、上述した工程認識映像ＤＢ１０３に蓄積された情報に基づいて、映像に登場する様々な物体像を示すオブジェクト名のセットと工程名との対応関係を学習する。そして、この学習結果に基づいて、オブジェクト名のセットに対して、そのオブジェクト名のセットで特定される物体がかかわる作業などを特定する工程名を関連付ける工程認識モデル１０７が構築される。

図１に示したオンライン処理部１１０は、オブジェクト名付与部１１１と仮グループ形成部１１２と類似度評価部１１３とグループ結合部１１４とメタデータ付与部１１５とアノテーション制御部１１６と記憶部１１７とを有する。

製品や部品の加工・組み立て過程などを撮影した映像データは、ビデオ入力端子Ｖｉｎを介してオンライン処理部１１０に入力される。入力された映像データは、記憶部１１７に保持される。オブジェクト名付与部１１１、仮グループ形成部１１２、類似度評価部１１３、グループ結合部１１４、メタデータ付与部１１５およびアノテーション制御部１１６は、この記憶部１１７に保持された情報を参照して、それぞれの処理を実行する。また、オブジェクト名付与部１１１、仮グループ形成部１１２、類似度評価部１１３、グループ結合部１１４およびメタデータ付与部１１５による処理結果は、記憶部１１７に保持される。

オブジェクト名付与部１１１は、例えば、映像データに含まれている各フレームの画像に含まれる物体像に対して、上述した物体認識モデル１０５を利用してオブジェクト名を付与する。

仮グループ形成部１１２は、例えば、映像データに付加された撮影時刻を示す情報に基づいて、映像データを複数の仮グループに分割する。なお、仮グループ形成部１１２は、撮影時刻を示す情報に加えて、撮影時の撮像装置の向きや撮影位置などを示す情報を用いて、映像データを仮グループに分割することもできる。撮影位置については、例えば撮像装置にＧＰＳ(Global Positioning System)などの測位装置を備え、撮影された映像データに測位装置による測位情報をメタデータとして付与することが考えられる。例えば、撮影装置の向きや撮影位置が異なる場合には、全く別の場面を撮影していることも考えられるため、別の映像データとして更に分割しても良い。

類似度評価部１１３は、映像データにおいて時系列的に隣接している２つの仮グループの組それぞれについて、後述するようにして類似度を評価する。この類似度評価部１１３により、類似している旨の評価結果が与えられた隣接する仮グループについて、グループ結合部１１４は、これらの仮グループを結合する処理を行う。

グループ結合部１１４は、例えば、類似度評価部１１３によって隣接している仮グループと類似しているとされる仮グループがなくなるまで仮グループを結合する処理を行ってもよい。

このような結合処理で仮グループを結合して形成された本グループについて、メタデータ付与部１１５は、上述した工程認識モデル１０７を用いて工程名を付与する処理を行う。メタデータ付与部１１５は、例えば、個々の本グループに属する複数の画像情報に記録されたオブジェクト名のセットに対応する工程を示す工程名を、工程認識モデル１０７を用いて求める。

アノテーション制御部１１６は、各本グループに付与された工程名および対応する画像情報を記憶部１１７から取得し、ユーザインタフェース部１２０の表示部１２１を介して利用者に提供してもよい。また、アノテーション制御部１１６は、ユーザインタフェース部１２０に設けられた指示入力部１２２を介して利用者が入力した指示を受け取る。アノテーション制御部１１６は、受け取った利用者からの指示を、オブジェクト名付与部１１１、類似度評価部１１３およびグループ結合部１１４の処理に反映してもよい。例えば、アノテーション制御部１１６は、利用者からの指示に応じて、物体認識映像ＤＢ１０２、工程認識映像ＤＢ１０３に記憶されたデータを、オンライン処理部１１０の処理で記憶部１１７に保持されたデータに基づいて修正してもよい。また、アノテーション制御部１１６は、オンライン処理部１１０の処理で記憶部１１７に保持されたデータを、物体認識映像ＤＢ１０２、工程認識映像ＤＢ１０３に追加してもよい。物体認識学習部１０４や工程認識学習部１０６がこの修正され追加されたデータで各モデルを構築することによって、以降の処理に反映することが出来る。

図１に示した例では、類似度評価部１１３は、判別部１３２と類似度算出部１３４とを有する。

判別部１３２は、記憶部１１７を参照して、仮グループごとに、当該仮グループに含まれる画像情報に含まれる各物体が背景オブジェクトであるか前景オブジェクトであるかを判別する。判別部１３２は、例えば、仮グループに含まれる複数の画像情報で表される事象の環境に含まれるオブジェクトを背景オブジェクトとして判別する。また、仮グループに含まれる複数の画像情報で表される事象において変化するオブジェクトを、判別部１３２は、前景オブジェクトとして判別する。なお、本実施形態において、背景オブジェクトとは、仮グループに含まれる複数画像情報のうち所定数以上の画像情報に含まれ、且つ、これら複数画像情報において位置情報の差（つまり移動量）が、予め定められた移動を判定するための位置閾値より小さい物体像を指す。また、前景オブジェクトとは、背景オブジェクト以外の物体像を指す。なお、上記背景オブジェクトについて、仮グループに含まれる複数画像の全てに含まれるものではなく、所定数以上とする理由は、前景オブジェクトによって遮られ、仮グループに含まれる複数画像の全てには写らない場合があることを考慮したものである。また、位置閾値より小さい、とは、位置閾値が移動ではないと判定するための差の上限値である場合には以下、位置閾値が移動であると判定するための差の下限値である場合には未満を指す。

判別部１３２は、例えば、各仮グループについて、仮グループに含まれる画像情報に記録された物体を示すオブジェクト名に対応して、当該物体についての判別結果を含む情報を示すオブジェクトテーブルを作成してもよい。各仮グループについて作成されたオブジェクトテーブルは、記憶部１１７に格納してもよい。

類似度算出部１３４は、記憶部１１７を参照し、隣接する２つの仮グループについて、それぞれに対応するオブジェクトテーブルで示される背景オブジェクトに関する類似度を算出する。そして、算出した類似度が所定の第１閾値を超えているか否かを示す判定結果が、類似度評価結果としてグループ結合部１１４に通知される。

図２に、画像処理装置１のハードウェア構成の一実施形態を示す。図２に示した画像処理装置１は、プロセッサ２１と、メモリ２２と、ハードディスク装置(ＨＤＤ：Hard Disk Drive)２３と、表示制御部２４と、表示装置２５と、入力装置２６とを含む。更に、画像処理装置１は、光学ドライブ装置２８と、通信制御部２９を含む。

プロセッサ２１と、メモリ２２と、ＨＤＤ２３と、表示制御部２４と、入力装置２６と、光学ドライブ装置２８と、通信制御部２９とは、バスを介して接続される。また、通信制御部２９は、ネットワーク３０に接続される。また、画像処理装置１は、例えば、ビデオカメラやデジタルカメラなどの画像入力装置２７を含んでもよい。

ＨＤＤ２３には、オペレーティングシステムに加えて、上述した画像情報のグループ化処理およびアノテーション処理を含む画像処理を実行するためのアプリケーションプログラムが格納されている。アプリケーションプログラムは、本件開示の画像処理方法に含まれる各処理を実行するためのプログラムを含む。なお、上述したアプリケーションプログラムは、例えば、コンピュータ読取可能なリムーバブルディスク３１に記録して頒布することができる。そして、このリムーバブルディスク３１を光学ドライブ装置２８に装着して読み込み処理を行うことにより、上述したアプリケーションプログラムは、ＨＤＤ２３にインストールされる。また、インターネットなどのネットワーク３０と通信制御部２９を介して、上述したアプリケーションプログラムをＨＤＤ２３にインストールすることもできる。

図２に例示した画像処理装置１は、上述したプロセッサ２１、メモリ２２などのハードウェアと、オペレーティングシステムおよびアプリケーションプログラムなどのプログラムとが有機的に協働することにより、上述した各種機能を実現する。

図３、図８、図１０、図１１、図１２および図１３に、画像処理装置１が画像処理プログラムを実行することにより実行される処理の流れを示す。

図１に示したオブジェクト名付与部１１１の機能は、図２に示した画像処理装置１が、図３に示すステップ３０１，ステップ３０２，ステップ３０４の処理を実行することによって実現される。また、図１に示した仮グループ形成部１１２の機能は、画像処理装置１が、図３に示すステップ３０３の処理を実行することによって実現される。また、画像処理装置１が、ステップ３０３の処理を実行して得られた処理結果を、メモリ２２あるいはＨＤＤ２３に記憶することにより、図１に示した記憶部１１７の機能が実現される。図１に示した判別部１３２の機能は、画像処理装置１が、図３に示すステップ３０５の処理を実行することによって実現される。そして、画像処理装置１が、ステップ３０５の処理を実行して得られた処理結果を、メモリ２２あるいはＨＤＤ２３に記憶することにより、図１に示した記憶部１１７にオブジェクトテーブルが格納される。図１に示した類似度算出部１３４の機能は、画像処理装置１が、図３に示すステップ３０６、ステップ３０７、ステップ３０８、ステップ３１０の処理を実行することによって実現される。図１に示したグループ結合部１１４の機能は、画像処理装置１が、図３に示すステップ３０６、ステップ３０９の処理を実行することによって実現される。図１に示したメタデータ付与部１１５の機能は、画像処理装置１が、図３に示すステップ３１１の処理を実行することによって実現される。また、図１に示したアノテーション制御部１１６の機能は、画像処理装置１が、図１２のステップ３５７からステップ３５９の処理を実行することで実現される。また、図１に示した各部の処理過程で生成される情報は、メモリ２２あるいはＨＤＤ２３などに格納される。

本件開示の画像処理装置は、例えば、図３に示す各手順を実行するためのプログラムをコンピュータに読み込ませ、このプログラムをコンピュータに実行させることによって実現することもできる。更に、インターネットなどのネットワークを介して複数の画像情報を受け取り、図３に示した各手順を含む方法を用いて、グループ化した複数の画像情報それぞれにメタデータを付与するサービスを提供することも可能である。

図３に、画像処理装置による画像処理のフローチャートを示す。また、図４に、画像処理装置１が図３の処理を実行することにより記憶部１１７に記憶するデータレイアウトの一例を示す。

映像データに含まれる各フレームの画像情報が入力されるごとに、画像処理装置１は、入力された画像情報に含まれる各物体像にオブジェクト名として物体名を付与する処理を行う(ステップ３０１，３０２)。

ステップ３０１，３０２の処理の過程で、画像処理装置１は、記憶部１１７に、例えば、映像データに含まれる各フレームの画像データ、これらの画像データに含まれる物体を特定する物体識別情報、及び、これらの画像データにおける物体の位置を特定する位置情報を対応付けて記憶する。

図４(Ａ)は、記憶部１１７に記憶されている映像データの集合に含まれる映像データを示す映像リストの例を示す。図４(Ａ)に例示した映像リストにおいて、符号「Ｍ１」、「Ｍ２」は、映像データに付与された映像ＩＤ(IDentifier)を示す。映像ＩＤ「Ｍ１」、「Ｍ２」で示される映像データＭ１、Ｍ２に含まれる各フレームの画像データは、個々のフレームを識別するフレームＩＤに基づいて参照可能なように記憶部１１７に格納されている。

図４(Ｄ)は、フレーム１に含まれる物体像のセットを示す物体リストの例である。図４(Ｄ)に示した符号「Ｔ１」、「Ｔ２」は、フレーム１に含まれる各物体像を識別する物体ＩＤの例を示す。

図４(Ｅ−１)，(Ｅ−２)は、それぞれ物体ＩＤ「Ｔ１」、「Ｔ２」で示される物体Ｔ１，Ｔ２の物体データの例を示す。各物体データは、対応する物体像に対して、上述したオブジェクト名付与部１１１が付与した物体名と、当該物体像の画像における位置を示す位置情報を含む。各物体データは、対応する物体像の特徴を表す特徴情報を含んでもよい。なお、図４(Ｄ)に示した物体ＩＤ「Ｔ１」、「Ｔ２」と、図４(Ｅ−１)、(Ｅ−２)に示した物体データとは、ポインタなどによって関連付けられている。

図５に、物体データに含まれる位置情報の例を示す。図５(Ａ)，(Ｃ)，(Ｅ)に、物体の位置情報の定義例を示す。図５(Ｂ)，(Ｄ)，(Ｆ)に、図５(Ａ)，(Ｃ)，(Ｅ)に示した各定義例に対応する位置情報の形式の例を示す。

図５(Ａ)は、物体像の位置を、物体像を囲む矩形の中心位置を示す中心座標(Xc,Yc)と、中心位置から矩形のＸ，Ｙ方向の境界までの距離ｄｘ、ｄｙを用いて表す例である。図５(Ｂ)に、図５(Ａ)に示した定義例に対応する位置情報の形式の例を示す。

図５(Ｃ)は、物体像の位置を、物体像を囲む矩形の頂点の位置を示す頂点座標(Xa,Ya)と、この矩形の幅Ｗおよび高さＨを用いて表す例である。なお、図５(Ｃ)は、物体像を囲む矩形の左上の頂点の座標によって、矩形の位置を示す例である。図５(Ｄ)に、図５(Ｃ)に示した定義例に対応する位置情報の形式の例を示す。

図５(Ｅ)は、物体像の位置を、物体像を囲む多角形の各頂点の位置を示す頂点座標(X1,Y1)、(X2,Y2)、…、(Xｎ,Yｎ)を用いて表す例である。図５(Ｆ)に、図５(Ｅ)に示した定義例に対応する位置情報の形式の例を示す。

オブジェクト名の付与がなされた各フレームの画像情報について、画像処理装置１は、当該フレームを編入する仮グループを決定する処理を行う(ステップ３０３)。画像処理装置１は、例えば、まず、直前のフレームに対応する撮影時刻と現フレームの撮影時刻との差と所定の閾値とを比較する。そして、撮影時刻の差が所定の閾値以下である場合に、画像処理装置１は、現フレームを直前フレームと同一の仮グループに編入する。一方、撮影時刻の差が所定の閾値を超えている場合に、画像処理装置１は、現フレームを直前フレームとは別の新たな仮グループに編入する。なお、入力される映像データに撮影時刻を示す情報が含まれていない場合に、画像処理装置１は、例えば、映像データを所定の時間ごとに分割することにより、複数の仮グループを形成することができる。例えば、画像処理装置１は、１秒間に対応する動画像の範囲、例えばフレーム数ごとに映像データを分割することにより、入力される映像データから複数の仮グループのセットを生成することができる。

図６に、映像データに含まれる各画像情報をグループ化する処理を説明する図を示す。

図６に示した符号Ｍ１は、ステップ３０１で入力された映像データＭ１を示す。この動画像Ｍ１は、符号Ｐ１，Ｐ２，Ｐ３で示したフレームで、撮影時刻情報が不連続となっている。なお、図６においては、映像データの開始からフレームＰ１までの区間を動画像１、フレームＰ１〜フレームＰ２までの区間を動画像２、フレームＰ２〜フレームＰ３までの区間を動画像３として示した。また、フレームＰ３以降の動画像４については、一部のみが図６に示されている。

このような映像データの入力に応じて、画像処理装置１は、撮影時刻情報が連続性を維持している範囲ごとに仮グループを形成する。図６に示した符号Ｇ１，Ｇ２，Ｇ３，Ｇ４は、動画像１〜４に対応する仮グループＧ１〜Ｇ４を示す。また、図６に、各仮グループＧ１〜Ｇ４に属する画像に対応して、個々の画像に含まれている物体像に付与された物体名の例を示す。

画像処理装置１は、ステップ３０３の処理を行うことで生成した仮グループを示す情報を、記憶部１１７に記憶されている画像情報と関連付けて記憶部１１７に格納する。

図４(Ｂ)は、映像データＭ１に関連付けられた仮グループリストの例を示す。図４(Ｂ)に例示した仮グループリストは、映像データＭ１に含まれる仮グループＧ１〜Ｇ４を含む各仮グループを識別する仮グループＩＤのセットを含んでいる。なお、図４(Ａ)に示した動画ＩＤ「Ｍ１」から図４(Ｂ)に示した動画Ｍ１の仮グループリストへの矢印は、ポインタによる関連付けを示す。このように、画像処理装置１は、各映像データに関連付けられた仮グループリストを記憶部１１７に記憶する。

図４(Ｃ−１)，(Ｃ−２)は、各仮グループに含まれる画像データを示すフレームリストの例である。図４(Ｃ−１)は、仮グループＧ１に関連付けられたフレームリストの例である。図４(Ｃ−１)に例示したフレームリストは、フレーム１からフレームＰ１までの画像データを示すフレームＩＤ「１」〜「Ｐ１」を含む。また、図４(Ｃ−２)は、仮グループＧ２に関連付けられたフレームリストの例である。図４(Ｃ−２)に例示したフレームリストは、フレームＰ１＋１からフレームＰ２までの画像データを示すフレームＩＤ「Ｐ１＋１」〜「Ｐ２」を含む。同様にして、画像処理装置１は、仮グループＧ３，Ｇ４を含む全てのグループについて、フレームリストを生成し、生成したフレームリストを記憶部１１７に記憶する。なお、図４(Ｂ)に示した仮グループＩＤ「Ｇ１」，「Ｇ２」から、図４(Ｃ−１)，(Ｃ−２)に示した仮グループＧ１，Ｇ２に対応するフレームリストへの矢印は、ポインタによる関連付けを示す。

上述したステップ３０３の終了後に、画像処理装置１は、映像データの入力が終了したか否かを判定する(ステップ３０４)。続きの映像データがある場合に(ステップ３０４の否定判定)、画像処理部１は、ステップ３０１に戻って新たな画像情報についての処理を行う。このようにして、ステップ３０１からステップ３０４を繰り返して、画像処理装置１は、映像データに含まれる各画像情報について、オブジェクト名の付与と仮グループへの編入処理を行う。そして、映像データに含まれる全ての画像情報についての処理が完了したときに、画像処理装置１は、ステップ３０４の肯定判定として、ステップ３０５の処理に進む。

ステップ３０５で、画像処理装置１は、仮グループごとに、当該仮グループに含まれる画像情報に含まれる各オブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判別する処理を行う。次いで、画像処理装置１は、ステップ３０６で、仮グループの一つを選択する。そして、選択された仮グループについて、画像処理装置１は、隣接する仮グループとの間の類似度を算出する(ステップ３０７)。

そして、画像処理装置１は、ステップ３０７で算出された類似度と所定の第１閾値とを比較し、ステップ３０７で算出された類似度が所定の第１閾値以上である場合に(ステップ３０８の肯定判定)、ステップ３０６で選択した仮グループと隣接する仮グループとを結合する(ステップ３０９)。なお、画像処理装置１は、ステップ３０８で用いる第１閾値の値を、例えば、２つの画像データにおいて、同一の物体に対応する物体像の特徴の類似度などに基づいて決定することができる。

図７に、仮グループの結合を説明する図を示す。図７(Ａ)、(Ｂ)、(Ｃ)は、映像データにおける配列順で隣接する３つの仮グループに含まれる画像情報の一例である。なお、図７(Ａ)、(Ｂ)、(Ｃ)に示した各画像情報に含まれる各物体像に付与された物体名は、それぞれに対応する物体像に引出し線を付けて示されている。

図７(Ａ)に示した画像情報に含まれる各物体像には、物体名「壁」、「床」、「作業台」、「人物」、「部品Ａ」が付与されている。また、図７(Ｂ)に示した例では、上述した各物体名に加えて、物体名「部品Ａ」が付与されたものとは別の物体に物体名「部品Ｂ」が付与されている。一方、図７(Ｃ)に示した例では、上述した各物体名「部品Ｂ」が付与された物体像の変わりに、物体名「工作機械Ａ」が付与された物体像が含まれている。

例えば、図７(Ａ)、(Ｂ)、(Ｃ)に示した各画像情報を含む仮グループについて、物体名「壁」、「床」、「作業台」がそれぞれ付与された物体像が背景オブジェクトと判別されている場合を考える。この場合に、画像処理装置１は、これらの仮グループ間の類似度を、物体名「壁」、「床」、「作業台」がそれぞれ付与された物体像の類似性に基づいて評価する。

図７(Ｄ)に、図７(Ａ)、(Ｂ)に示した画像情報にそれぞれ含まれる同一の物体名が付与された物体像の類似度を調べた結果の例を示す。図７(Ａ)、(Ｂ)に示した例では、画像情報に含まれる壁や床および作業台を表す物体像は、互いに特徴が似ている。このような場合に、画像処理装置１は、図４(Ｄ)に示すように、２つの仮グループに含まれる物体名「壁」、「床」、「作業台」に対応する物体像について、いずれも類似度を上述した第１閾値よりも高く評価する。

このように、複数の背景オブジェクトの類似度が高いと評価される場合には、２つの仮グループに含まれる画像情報は同一の環境において撮影された可能性が高い。したがって、画像処理装置１は、背景オブジェクトに関する類似度の高い隣接する仮グループを結合することにより、同一の環境において撮影された可能性の高い仮グループを結合することができる。

一方、図７(Ｅ)に、図７(Ｂ)、(Ｃ)に示した画像情報にそれぞれ含まれる同一の物体名が付与された物体像の類似度を調べた結果の例を示す。図７(Ｂ)、(Ｃ)に示した例では、画像情報に含まれる壁を表す物体像は、互いに特徴が似ている。しかしながら、床および作業台表す物体像の特徴が異なっていることは明らかである。このような場合に、画像処理装置１は、図４(Ｅ)に示すように、２つの仮グループに含まれる物体名「床」、「作業台」に対応する物体像について、類似度を上述した第１閾値よりも低く評価する。

このように、複数の背景オブジェクトの類似度が低いと評価される場合には、２つの仮グループに含まれる画像情報は異なる環境において撮影された可能性が高い。このような評価結果が得られた２つの仮グループについては、画像処理装置１は、結合を行わず、それぞれの仮グループの独立を維持する。

このようにして、画像処理装置１は、例えば、撮影時刻が大きく異なる仮グループを、背景オブジェクトの類似性が高いことを根拠として、一つに結合することができる。

図６に示した例について、仮グループ２および仮グループ３に属する各画像に共通して含まれている物体名Ｃで示されるオブジェクトが、各仮グループについてのステップ３０５の処理で、背景オブジェクトであると判別されている場合について説明する。画像処理装置１は、この物体名Ｃのオブジェクトの特徴の類似性が高いと判断したときに、これらの仮グループを結合する。これにより、画像処理装置１は、結合した２つの仮グループ２，３に対応する動画像２と動画像３とを、撮影時刻の不連続にかかわらず、同一の作業過程などを撮影している映像データの範囲として扱うことができる。

一方、図６に示した仮グループ３と仮グループ４とは、同一の物体名Ｃが付与されたオブジェクトの特徴の類似性が低い旨の評価結果が得られる例である。この場合に、画像処理装置１は、仮グループの結合を行わないため、それぞれの仮グループの独立が維持される。また、動画像１に対応する仮グループ１と上述した仮グループ２との間には、同一の物体名が付与された背景オブジェクトが存在しない。このような場合も、画像処理装置１は、それぞれの仮グループの結合を行わないため、それぞれの仮グループの独立は維持される。

図３に示したステップ３１０で、画像処理装置１は、ステップ３０９の結合処理で形成された新たな仮グループを含めて、全ての仮グループについて結合可能性を判定する処理を行ったか否かを判定する。このステップ３１０の否定判定の場合に、処理は、ステップ３０６に戻る。そして、画像処理装置１は、まだ結合可能性を判定する処理が行われていない仮グループの一つについて、ステップ３０７〜ステップ３０９の処理を行う。

このようにして、画像処理装置１は、ステップ３０６〜ステップ３１０を繰り返し実行する。そして、画像処理装置は、全ての仮グループについての処理が完了したときに(ステップ３１０の肯定判定)、ステップ３１１の処理に進む。

上述したような仮グループの結合処理を繰り返すことにより、画像処理装置１は、入力される映像データにおける撮影時刻の不連続にかかわらず、作業工程などを撮影した映像データのうち、周囲の環境が類似している映像データを結合していくことができる。そして、画像処理装置１は、仮グループの結合に応じて、映像データの区切りを、撮影されている作業工程などの周囲の環境の特徴が不連続となる箇所に近づけていくことができる。したがって、画像処理装置１は、ステップ３１０の肯定判定の時点で独立して残っている仮グループにそれぞれ対応する動画像の範囲の区切りを、環境の特徴が不連続となる箇所に一致させることができる。このような映像データにおいて、周囲の環境の特徴が不連続となる箇所は、撮影対象の工程の区切りに相当する。したがって、これらの仮グループは、それぞれ異なる工程の進行過程を表す画像情報を含むグループ(以下、本グループとして説明する)である。なお、図６に示した例では、動画像１に対応する仮グループ１はそのまま本グループ１として残っている。また、仮グループ２と仮グループ３との結合により、本グループ２が形成されている。そして、仮グループ４は、本グループ３に含まれている。

現実の製造現場においては、所望の工程について作業過程を撮影する場合に、作業者の休憩時間などのために、作業過程の途中で撮影を一旦中断し、作業の再開に応じて撮影を再開することがある。このような場合には、撮影された映像データの撮影時刻は、撮影を中断した箇所で不連続となる。このような入力映像データに対して本件開示の技術に含まれる、画像処理装置１による仮グループ結合処理を適用すれば、中断前に撮影された動画像に対応する仮グループと再開後に撮影された動画像に対応する仮グループとを結合することができる。そして、所望の工程全体を一貫して撮影した動画像に対応する本グループを形成することができる。

このようにして形成された個々の本グループについて、画像処理装置１は、工程名を示すメタデータを付与する処理を行う(図３のステップ３１１)。このとき、画像処理装置１は、例えば、記憶部１１７から、各本グループに含まれる画像情報に記録された全てのオブジェクトに対応するオブジェクト名のセットを取得することができる。そして、画像処理装置１は、取得したオブジェクト名のセットについて、工程認識モデル１０７を用いて、適合する工程名を特定することができる。

例えば、図６に示した例について説明すると、画像処理装置１は、背景オブジェクトを示す物体名Ｃとともに、物体名Ｂ，Ｄ，Ｅを含むオブジェクト名のセットに基づいて、本グループ２へのメタデータ付与処理を行う。また、図７に示した例について説明すると、画像処理装置１は、背景オブジェクトである「壁」や「床」、「部品Ａ」などとともに、前景オブジェクトである「人物」や「部品Ｂ」も考慮して、図７(Ａ)，(Ｂ)に示した画像を含む動画像の範囲に対応する本グループを対象とするメタデータ付与処理を行う。つまり、画像処理装置１は、個々の本グループに対応する動画像の範囲において一時的に出現する前景オブジェクトも考慮に入れて、工程名を付与する処理を行う。

上述したように、本件開示の画像処理装置１によれば、現実の製造現場で撮影された映像データを、利用者が予め分類に用いる物体名を定義しておくことなく、また、撮影時刻の不連続性などにかかわらず、作業過程のまとまりとしての工程ごとに自動的にグループ化することができる。このようにして、映像データのグループ化の自動化を実現することにより、映像データに含まれる様々な工程を撮影した動画像ごとに工程名を付与するために、適切に分類するという作業を省力化することができる。このような特徴は、製造現場において、多様化する工程それぞれについてのマニュアルなどを作成する作業を支援する上で非常に有用である。

なお、グループ化された動画像に対して付与するメタデータは、動画像に含まれる画像情報に記録されたオブジェクトを示すオブジェクト名のセットに基づいて認識可能な事象であればよく、上述した工程名に限られない。

なお、オブジェクト名のセットから事象を示すメタデータを特定する手法については、非特許文献２などを参照されたい。また、画像情報に含まれるオブジェクトを認識する技術については、非特許文献１などを参照されたい。

次に、各仮グループについて、オブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判別する処理について説明する。

図８に、オブジェクトの判別処理のフローチャートを示す。なお、図８に示す各手順は、図３に示したステップ３０５に相当する。

図８に示した例では、まず、画像処理装置１は、処理対象の仮グループに含まれる画像情報から、これらの画像情報に記録されているオブジェクト名が付与されたオブジェクトのうち、未選択の一つを検索する処理を行う(ステップ３２１)。次いで、画像処理装置１は、選択したオブジェクトについて、仮グループ内での出現率ＲＴおよび移動率ＲＤを算出する処理を行う(ステップ３２２，３２３)。画像処理装置１は、仮グループ内での出現率ＲＴを、例えば、選択したオブジェクトが記録されている画像情報の数ｎｐを仮グループに含まれる画像情報の総数Ｎで除算した値から求めることができる。また、画像処理装置１は、仮グループ内での移動率ＲＤを、記憶部１１７に各フレームに対応して記憶されている物体データに基づいて算出する。例えば、図５(Ｂ)に示したように、物体データに、物体像の中心位置に基づく位置情報が含まれている場合に、画像処理装置１は、選択したオブジェクトの中心座標（Ｘｃ，Ｙｃ）及び中心からの距離ｄｘ、ｄｙが前のフレームの画像情報における中心座標（Ｘｃ，Ｙｃ）及び中心からの距離ｄｘ、ｄｙと異なっている数ｎｄを仮グループに含まれる画像情報の総数Ｎで除算した値から移動率ＲＤを求める。また、図５(Ｄ)に示したように、物体データに、物体像を囲む矩形の頂点位置に基づく位置情報が含まれている場合に、画像処理装置１は、例えば、選択したオブジェクトの左上の頂点座標（Ｘａ，Ｙａ）及び幅Ｗ、高さＨが前のフレームの画像情報における左上の頂点座標（Ｘａ，Ｙａ）及び幅Ｗ、高さＨと異なっている数ｎｄを仮グループに含まれる画像情報の総数Ｎで除算した値から移動率ＲＤを求める。また、図５(Ｄ)に示したように、物体データに、物体像を囲む多角形の頂点位置に基づく位置情報が含まれている場合に、画像処理装置１は、多角形の各頂点座標（Ｘ１，Ｙ１）・・・（Ｘｎ，Ｙｎ）が、前のフレームの画像情報における多角形の各々の座標（Ｘ１，Ｙ１）・・・（Ｘｎ，Ｙｎ）と異なっている数ｎｄを仮グループに含まれる画像情報の総数Ｎで除算した値から移動率ＲＤを求める。なお、この「異なっている」について、撮影装置のゆれ、例えば人が撮影しているような場合に手ぶれにより完全一致でなくなるケースが考えられるため、完全一致ではなく、手ぶれとして判断可能な一定の閾値を設定し、この閾値以上の差がある場合に、「異なっている」と判断するよう構成しても良い。

そして、画像処理装置１は、このようにして算出した仮グループ内での出現率ＲＴおよび移動率ＲＤを、それぞれ出現率についての第２閾値Ｔｈｔおよび移動率についての第３閾値Ｔｈｄと比較する(ステップ３２４)。そして、画像処理装置１は、出現率ＲＴが第２閾値Ｔｈｔより大きく、かつ、移動率ＲＤが第３閾値Ｔｈｄ未満である場合に(ステップ３２４の肯定判定)、当該オブジェクトは背景オブジェクトであると判別する(ステップ３２５)。次いで、画像処理装置１は、仮グループに含まれる各画像情報におけるこのオブジェクトの特徴量に基づいて、このオブジェクトの特徴の仮グループにおける平均ベクトルを算出する処理を行う(ステップ３２６)。例えば、画像処理装置１は、仮グループに含まれる各画像情報に基づいて、背景オブジェクトに分類された物体像の画像特徴として、物体像の部分の色ヒストグラムを求める。そして、画像処理装置１は、各画像情報からそれぞれ求められた色ヒストグラムを示すベクトルを平均化することにより、仮グループにおける当該オブジェクトの平均的な特徴を示す平均ベクトルを得る。なお、画像処理装置１は、この処理において、物体像の画像特徴として、上述した色ヒストグラムの代わりに輝度ヒストグラムなどの他の画像特徴を用いるように構成しても良い。また、画像処理装置１は、各画像情報に含まれる個々のオブジェクトにオブジェクト名を付与する際に、それぞれのオブジェクトについて特徴量を抽出し、オブジェクト名付与処理の過程で各画像情報に関連づけて記憶部１１７に記憶した特徴量に基づいて、上述した平均ベクトルを求めるように構成しても良い。このような平均ベクトルを利用することによって、画像処理装置１は、同じ物体として認識されたが、色が異なる物体像である場合には別の背景オブジェクトとして識別することができる。例えば、前述した工程によって壁や床の少なくとも一部の色が異なる場合など、背景オブジェクトとして認識された物体像の色の異なりによって別の工程（状況・背景）の画像として認識する必要がある場合に、画像処理装置１は、このような平均ベクトルを利用することによって、別の工程（状況・背景）として認識することができ、分類精度を向上させることができる。

一方、画像処理装置１は、ステップ３２２，３２３で算出された仮グループ内での出現率ＲＴあるいは移動率ＲＤが、上述した条件を満たさない場合に(ステップ３２４の否定判定)、当該オブジェクトは前景オブジェクトであると判別する(ステップ３２７)。

ステップ３２８で、画像処理装置１は、上述したようにして得られた判別結果に基づいて、仮グループに対応して記憶部１１７に記憶されたオブジェクトテーブルを更新する。画像処理装置１は、判別対象のオブジェクトを背景オブジェクトと判別した場合に、ステップ３２８で、この判別結果とともにステップ３２６で算出された平均ベクトルと当該オブジェクトの位置を示す情報とをオブジェクト名に対応づけて記憶部１１７のオブジェクトテーブルに格納する処理を行う。なお、画像処理装置１は、オブジェクトテーブルに記憶するオブジェクトの位置を示す情報を、仮グループに含まれる各フレームの画像情報に関連づけて記憶部１１７に記憶された物体データに含まれる位置情報に基づいて算出しても良い。一方、画像処理装置１は、判別対象のオブジェクトを前景オブジェクトと判別した場合は、その旨を示す情報を、オブジェクト名に対応づけて記憶部１１７のオブジェクトテーブルに記憶する。

その後、画像処理装置１は、ステップ３２９において、全てのオブジェクトについての判別が完了したか否かを判定する。画像処理装置１は、このステップ３２９の否定判定の場合に、ステップ３２１の処理に戻り、新たなオブジェクトについての判別処理を開始する。このようにして、画像処理装置１は、ステップ３２１からステップ３２９の処理を繰り返し実行し、オブジェクト名が付与された全てのオブジェクトについての判別処理が完了したときに(ステップ３２９の肯定判定)、判別処理を終了する。

図９(Ａ)に、上述した判別処理によって得られるオブジェクトテーブルの一例を示す。図９(Ａ)の例は、オブジェクト名「床」、「壁」、「作業台」、「人物」、「部品Ａ」が付与されたオブジェクトが記録された一連の画像情報について、画像処理装置１が上述した判別処理を行った結果を示している。

図９(Ａ)に示したオブジェクトテーブルの例は、各オブジェクト名に対応して、算出された出現率ＲＴ、移動率ＲＤとともに判別結果を含む。また、図９(Ａ)に例示したオブジェクトテーブルは、背景オブジェクトであると判別されたオブジェクトを示すオブジェクト名「床」、「壁」、「作業台」、「部品Ａ」に対応して、それぞれの位置を示す位置情報Ｐｆ，Ｐｗ，Ｐｄ，Ｐｐを含む。また、図９(Ａ)において、符号Ｖｆ，Ｖｗ，Ｖｄ，Ｖｐは、対応する各オブジェクトの画像特徴量の平均ベクトルである。なお、図９(Ａ)に例示したオブジェクトテーブルでは、背景オブジェクトであると判別されたオブジェクトは、オブジェクト名に対応する「背景／前景」欄に符号「背景」を付して示した。一方、前景オブジェクトであると判別されたオブジェクトは、オブジェクト名に対応する「背景／前景」欄に符号「前景」を付して示した。

なお、オブジェクトの判別処理において、判別の指標となる出現率ＲＴを求めるステップ３２２と移動率ＲＤを求めるステップ３２３の実行順序は任意でよい。また、別の指標を合わせて用いて、個々のオブジェクトが背景オブジェクトであるか前景オブジェクトであるかを判定することもできるし、上述した出現率ＲＴ、移動率ＲＤのいずれかをその別の指標と組み合わせて判定に用いることもできる。

また、個々の仮グループにおいて、判別対象のオブジェクトについて求めた出現率ＲＴや移動率ＲＤのような指標に基づいて判別処理を行う代わりに、オブジェクト名に対応して予め決定した判別結果を示す判別テーブルを用いることもできる。

図９(Ｂ)に、判別テーブルの一例を示す。図９(Ｂ)の例では、個々のオブジェクト名に対応して、それらが付与されるオブジェクトが背景オブジェクトであるか前景オブジェクトであるかが前景／背景欄に示されている。

このような判別テーブルは、例えば、図１に示した正解付きデータセット１０１に含まれる工程認識映像データベース１０３に蓄積される様々な工程を撮影した映像データに基づいて、予め準備しておくことができる。これらの映像データに含まれる画像情報には、多種多様なオブジェクトが記録されている。そして、それぞれのオブジェクトについて、映像データによって表されている工程において環境の一部を表す背景オブジェクトであるか、工程の進捗過程で変化する前景オブジェクトであるかを判断しておくことができる。このような判断は、例えば、工程認識映像データベース１０３に、映像データを蓄積する際などに、オブジェクト名や工程名を付与する作業と一緒に行うことができる。

次に、隣接する２つの仮グループ間の類似度を評価する処理について説明する。隣接する２つの仮グループ間の類似度は、例えば、これらの仮グループに対応して生成されたオブジェクトテーブルに含まれる背景オブジェクトの平均ベクトルに基づいて、次のようにして求めることができる。

図１０に、類似度評価処理のフローチャートを示す。図１０に示す各手順は、図３に示したステップ３０７およびステップ３０８に相当する処理の一例である。

まず、画像処理装置１は、隣接する２つの仮グループにそれぞれ対応して記憶部１１７に記憶された２つのオブジェクトテーブルを比較することにより、両者に共通する背景オブジェクトを検出する(ステップ３３１)。画像処理装置１は、ステップ３３１において、少なくとも一つの共通する背景オブジェクトを検出した場合に(ステップ３３２の肯定判定)、ステップ３３３の処理に進む。

ステップ３３３で、画像処理装置１は、記憶部１１７に記憶された上述の２つのオブジェクトテーブルから、ステップ３３１で検出した共通の背景オブジェクトそれぞれに対応する位置情報および平均ベクトルを取得する。そして、画像処理装置１は、共通する背景オブジェクトごとに、各オブジェクトテーブルから取得した位置情報および平均ベクトルに基づいて類似度を算出する(ステップ３３４)。画像処理装置１は、各背景オブジェクトの位置に関する類似度を、例えば、２つの仮グループに対応して取得された位置情報で示される位置間の距離が小さいほど、類似度の値が大きくなるように求める。同様に、画像処理装置１は、各背景オブジェクトの画像特徴に関する類似度を、例えば、２つの仮グループに対応して取得された平均ベクトルで示される特徴量の距離が小さいほど、類似度の値が大きくなるように求める。次に、画像処理装置１は、共通する各背景オブジェクトについての類似度に基づいて、２つの仮グループ間の類似度を算出する(ステップ３３５)。例えば、画像処理装置１は、２つの仮グループ間の類似度として、各背景オブジェクトについて求めた位置に関する類似度および画像特徴に関する類似度の総和を求めても良い。

画像処理装置１は、このようにして算出した２つの仮グループ間の類似度を所定の第１閾値と比較する(ステップ３３６)。画像処理装置１は、２つの仮グループ間の類似度が第１閾値以上である場合に(ステップ３３６の肯定判定)、評価対象の２つの仮グループ間の類似度が高い旨の評価結果を出力する(ステップ３３７)。一方、画像処理装置１は、ステップ３３２あるいはステップ３３６の否定判定の場合に、評価対象の２つの仮グループ間の類似度は低い旨の評価結果を出力する(ステップ３３８)。

なお、画像処理装置１は、上述したステップ３３３からステップ３３８の処理を、各オブジェクトに対応する位置情報に注目して行っても良い。

上述したような類似度評価処理により、画像処理装置１は、類似度が高い旨の評価結果が得られた隣接する２つの仮グループを結合する際に、これらの仮グループに対応するオブジェクトテーブルを合成することができる。

図１１に、仮グループを結合する処理のフローチャートを示す。図１１に示す各手順は、図３に示したステップ３０９に相当する処理の一例である。

画像処理装置１は、まず、結合対象となる２つの仮グループに対応する動画像を結合する(ステップ３４１)。この結合処理により、２つの仮グループに含まれる画像情報を含む新しい１つの仮グループが形成される。

次いで、画像処理装置１は、結合された２つの仮グループにそれぞれ対応していたオブジェクトテーブルを合成する(ステップ３４２)。これにより、例えば、２つの仮グループの少なくとも一方に含まれているオブジェクトに対応する情報を含むオブジェクトテーブルが生成される。

次に、画像処理装置１は、結合処理によって新たに生成された仮グループに含まれる画像情報の中から、複数の代表画像を抽出する(ステップ３４３)。画像処理装置１は、例えば、新たに生成された仮グループにおいて均等に分布する画像情報を代表画像として抽出する。例えば、画像処理装置１は、所定の時間に対応する複数のフレームごとに、１つの代表画像を抽出すればよい。

そして、画像処理装置１は、抽出された代表画像に基づいて、ステップ３４２で合成されたオブジェクトテーブルで示される全てのオブジェクトについて、再び、背景オブジェクトであるか前景オブジェクトであるかを判別する(ステップ３４４)。このとき、画像処理装置１は、例えば、各オブジェクトの出現率や移動率として、代表画像の集合の中での出現率および移動率を算出する。そして、代表画像の集合の中での各オブジェクトの出現率および移動率が、図８のステップ３２４の説明で示した条件を満たすか否かに基づいて、背景オブジェクトと前景オブジェクトとを判別する。なお、画像処理装置１は、背景オブジェクトであると判別したオブジェクトについて、図８のステップ３２６と同様の処理を、代表画像の集合について行う。そして、画像処理装置１は、この処理により、オブジェクトの特徴量の仮グループ内での平均を示す平均ベクトルを算出する。

画像処理装置１は、このようにして得られた判別結果を、ステップ３４５において、新たに形成された仮グループに対応して記憶部１１７に記憶されたオブジェクトテーブルに反映する。そして、画像処理部１は、このオブジェクトテーブルを、結合処理によって形成された仮グループとこれに隣接する別の仮グループとの間の類似度評価処理に用いる。

次に、上述したような仮グループ結合処理を経て形成される本グループごとに、その本グループに含まれる動画像で表される事象を示すメタデータを付与する処理について説明する。

図１２、図１３に、メタデータ付与処理のフローチャートを示す。なお、図１２、図１３に示すフローチャートは、同一の番号が付された端子で示した箇所で互いに接続されている。なお、図１２、図１３に示す各手順は、図３に示したステップ３１１に相当する。

画像処理装置１は、まず、未処理の本グループから順次に付与対象の本グループを選択し、選択した本グループに対応して記憶部１１７に記憶されたオブジェクトテーブルを取得する(ステップ３５１)。

次に、画像処理装置１は、工程認識モデル１０７(図１参照)を用いて、オブジェクトテーブルに含まれる全てのオブジェクト名を含むセットに適合する工程を特定する処理を行う(ステップ３５２)。

図１４に、工程認識モデル１０７を説明する図を示す。図１４(Ａ)に、図１に示した正解付きデータセット１０１に含まれる工程認識データベース１０３の一例を示す。また、図１４(Ｂ)に、図１４(Ａ)に示される工程認識データベース１０３に含まれる映像データから抽出される工程認識テーブルの一例を示す。

図１４(Ａ)に示される工程認識データベース１０３は、複数の映像データを含んでいる。これらの映像データには、それぞれ工程名を示すメタデータが付与されている。また、個々の映像データに含まれる各画像情報には、それぞれの画像情報に含まれるオブジェクトを示すオブジェクト名が付与されている。

したがって、画像処理装置１は、個々の映像データに含まれる画像情報に付与されたオブジェクト名を収集することにより、工程名に対応するオブジェクト名のセットを取得することができる。そして、画像処理装置１は、このオブジェクト名のセットに含まれる個々のオブジェクト名で示されるオブジェクトについて、上述したステップ３２１〜ステップ３２９と同様の判別処理を行う。

画像処理装置１は、この判別処理で得られる判別結果を、例えば、全てのオブジェクト名に対応して、それぞれのオブジェクトが、各工程において背景オブジェクトあるいは前景オブジェクトとして含まれているか、含まれていないかを示す工程認識テーブルとして表すことができる。なお、図１４(Ｂ)に示す工程認識テーブルの例では、各オブジェクトが背景オブジェクトとして含まれる工程を、オブジェクト名と工程名とが交差する欄に符号「背景」を付して示した。また、各オブジェクトが前景オブジェクトとして含まれる工程を、オブジェクト名と工程名とが交差する欄に符号「前景」を付して示した。一方、個々のオブジェクトが記録された画像情報が含まれていない映像データに対応する工程を、オブジェクト名と工程名とが交差する欄に符号「−」を付して示した。

画像処理装置１の工程認識モデル１０７では、例えば、上述した工程認識テーブルに基づいて、付与対象の本グループに対応するオブジェクトテーブルで示されたオブジェクト名のセットと、各工程名に対応するオブジェクト名のセットの一致度を評価する。画像処理装置１は、個々のオブジェクト名に対応する背景／前景の分類結果についての一致／不一致も考慮に入れて、この一致度の評価を行うことができる。画像処理装置１は、図１２に示したステップ３５２の処理で、この評価結果に基づいて、付与対象の本グループに対応するオブジェクト名のセットに最も一致度の高いセットに対応する工程名を特定する。

なお、画像処理装置１は、ステップ３５２の処理において、背景オブジェクトに注目して、オブジェクトテーブルで示されたオブジェクト名のセットと、各工程名に対応するオブジェクト名のセットの一致度を評価してもよい。

そして、画像処理装置１は、ステップ３５２で特定した工程名を、付与対象の本グループに含まれる動画像を修飾するメタデータとして付与する(ステップ３５３)。次いで、画像処理装置１は、全ての本グループについてメタデータの付与処理が完了したか否かを判定する(ステップ３５４)。

画像処理装置１は、まだメタデータの付与が完了していない本グループがある場合に(ステップ３５４の否定判定)、ステップ３５１の処理に戻る。そして、画像処理装置１は、次の本グループについてのメタデータ付与処理を開始する。画像処理装置１は、上述したステップ３５１〜ステップ３５４の処理を繰り返すことにより、全ての本グループについてのメタデータ付与処理を完了させることができる。

図１２、図１３に示したフローチャートの例では、画像処理装置１は、各本グループについてのメタデータ付与処理が一旦完了した後に(ステップ３５４の肯定判定)、ステップ３５５以下の処理により、メタデータ付与結果の検証を行う。

ステップ３５５で、画像処理装置１は、上述した処理で付与されたメタデータに対応するオブジェクト名のセットと、各本グループに対応するオブジェクト名のセットとの整合性を検査する処理を行う。画像処理装置１は、例えば、検証対象の本グループに対応するオブジェクト名のセットの中の、この本グループに付与された工程名に対応するオブジェクト名のセットに含まれていないオブジェクト名を、不整合箇所として検出する。画像処理装置１は、例えば、上述した工程認識テーブルに工程名に対応して示されたオブジェクト名のセットを用いて、不整合箇所の検出を行っても良い。

画像処理装置１は、ステップ３５５の処理で、上述したような不整合箇所が検出されない場合に(ステップ３５６の否定判定)、ステップ３５７の処理に進む。

画像処理装置１は、ステップ３５７で、メタデータ付与結果の表示を行う。例えば、画像処理装置１は、各本グループに含まれる画像情報を表す映像とともに、この本グループに付与されたメタデータを示すテキスト情報を図１に示した表示部１２１に表示させる。更に、画像処理装置１は、本グループに対応する映像とともに、本グループに属する個々の画像情報に含まれる各オブジェクトに付与されたオブジェクト名を表示させてもよい。このようにして、各本グループに対応する映像と、当該映像について本件開示の画像処理技術によって階層的に付与されたメタデータを含むアノテーション結果とを合わせて表示部１２１に表示させることで、利用者の確認に供することができる。このアノテーション結果には、一連の画像情報を結合して形成された本グループに付与されたメタデータと、本グループに結合された個々の画像情報に記録されたオブジェクトに付与されたメタデータとが含まれている。

画像処理装置１は、上述したようにしてメタデータの付与結果が表示されている間に、図１に示したユーザインタフェース部１２０に設けられた指示入力部１２３を介して、利用者からの付与結果に関する修正指示の入力を受け付けることができる。

画像処理装置１は、利用者からの修正指示の入力を受け付けなかった場合に(ステップ３５８の否定判定)、本件開示の画像処理技術によって付与されたメタデータが、利用者によって確認されたと判断する。この場合に、画像処理装置１は、入力された映像データについて、メタデータを付与する処理を、その検証処理も含めて終了する。

一方、画像処理装置１は、利用者からの修正指示の入力を受け付けた場合に(ステップ３５８の肯定判定)、入力された修正指示に従って、ステップ３５９の処理を行うことにより、利用者からの修正指示をアノテーション結果に反映することができる。画像処理装置１は、このステップ３５９で、例えば、指定された本グループに付与される工程名あるいは指定されたオブジェクトに付与されるオブジェクト名を修正することができる。

画像処理装置１は、ステップ３５９において、本グループのいずれかに付与される工程名のみを修正し、オブジェクト名の修正を行わなかった場合に(ステップ３６０の否定判定)、ステップ３５７の処理に戻る。そして、画像処理装置１は、修正が反映されたアノテーション結果を表示部１２１に表示させることにより、修正されたアノテーション結果を利用者に提供する。

一方、画像処理装置１は、ステップ３６０の肯定判定の場合および上述したステップ３５５で不整合が検出された場合(ステップ３５６の肯定判定)に、後述するアノテーション処理のやり直しを行うことができる。

画像処理装置１は、ステップ３５６の肯定判定の場合に、図１２および図１３において、番号１を付した端子で示した接続関係に従ってステップ３６１の処理に進む。ステップ３６１で、画像処理装置１は、不整合箇所として検出されたオブジェクト名が付与されたオブジェクトに対して、オブジェクト名を再付与する処理を行う。画像処理装置１は、例えば、オブジェクト名の候補を、当該本グループに対してステップ３５３で付与された工程名に対応するオブジェクト名のセットに限定して、オブジェクト名の再付与処理を行っても良い。画像処理装置１は、例えば、当該本グループに付与された工程名に対応して、背景オブジェクトあるいは前景オブジェクトとして工程認識テーブルに示されているオブジェクト名を再付与処理でのオブジェクト名の候補とする。画像処理装置１は、このような限定を適用することにより、不整合箇所として検出されたオブジェクト名を、本グループに付与された工程名に即して修正することができる。画像処理装置１は、上述したステップ３６１の処理の終了後に、ステップ３６２の処理に進む。

一方、画像処理装置１は、利用者からの指示に応じて、オブジェクト名を修正した場合に(ステップ３６０の肯定判定)、図１２および図１３において、番号３を付した端子で示した接続関係に従ってステップ３６２の処理に進む。

このステップ３６２で、画像処理装置１は、オブジェクト名の修正対象が背景オブジェクトであるか否かを判定する。画像処理装置１は、修正対象が前景オブジェクトであった場合に(ステップ３６２の否定判定)、このオブジェクトを含む本グループに対応する動画像の範囲を維持する。画像処理装置１は、ステップ３６２の否定判定の場合に、図１２、図１３において、番号２を付した端子で示した接続関係に従って、ステップ３５１の処理に戻る。そして、画像処理装置１は、修正が反映されたオブジェクトテーブルに基づいて、このオブジェクトに対応する本グループについて、工程名を示すメタデータを付与する処理を行う。

一方、画像処理装置１は、修正対象が背景オブジェクトであった場合に(ステップ３６２の肯定判定)、ステップ３６３の処理に進む。この修正に伴って、本グループの範囲が変化する可能性があるためである。ステップ３６３で、画像処理装置１は、オブジェクト名が修正された背景オブジェクトを含む本グループと、この本グループに隣接する本グループとの間の類似度を再評価する処理を行う。画像処理装置１は、例えば、図１０に示したステップ３３１からステップ３３８の処理を再評価対象の本グループについて行うことにより、ステップ３６３の再評価処理を行っても良い。

次いで、画像処理装置１は、再評価処理で得られた類似度が第１閾値以上であるか否かを判定する(ステップ３６４)。そして、画像処理装置１は、このステップ３６４の肯定判定の場合に、図１１に示したステップ３４１からステップ３４５と同様にして、本グループを結合する処理を行う(ステップ３６５)。その後、画像処理装置１は、ステップ３６６において、ステップ３６５の結合処理によって形成された本グループと、これに隣接する本グループとを、類似度の評価対象に設定した後、ステップ３６３の処理に戻る。

画像処理装置１は、図１３に示したステップ３６３からステップ３６６の処理を、ステップ３６４において、再評価対象の本グループ間の類似度が第１閾値未満であるとされるまで繰り返す。これにより、画像処理装置１は、上述した背景オブジェクトについてのオブジェクト名の修正に伴って、結合される可能性のある本グループを全て検出して結合させることができる。

そして、画像処理装置１は、再評価対象の本グループについて求められた類似度が第１閾値未満となったときに(ステップ３６４の否定判定)、図１２、図１３において、番号２を付した端子で示した接続関係に従って、ステップ３５１の処理に戻る。その後、画像処理装置１は、上述した結合処理によって形成された新たな本グループについて、工程名を示すメタデータを付与する処理を行う。

本件開示の画像処理技術は、映像データに限らず、例えば、複数の静止画像の配列を含む画像情報シーケンスにも適用することができる。

図１５に、画像情報シーケンスのグループ化処理を説明する図を示す。また、図１６に、画像処理装置による画像処理の別例のフローチャートを示す。なお、図１６に示した手順のうち、図３に示した手順と同等のものについては、同一の符号を付して示し、その説明は省略する。

図１５に示した例では、画像処理装置１は、画像情報シーケンスに含まれる個々の静止画像を、それぞれ仮グループとして扱う。つまり、画像処理装置１は、入力される画像情報シーケンスに含まれる個々の静止画像を、それぞれ異なる仮グループに編入する(図１６のステップ３７１)。なお、映像データに含まれる画像情報毎に時刻情報が記録されている場合には上述のフレームを静止画像として読み替えても良い。また、映像データに時刻情報が含まれていない場合に、映像データに含まれる各フレームの画像情報を、静止画像の配列として捉えてもよい。

そして、画像処理装置１は、個々の静止画像に記録されている物体像ごとに、それぞれオブジェクト名を付与する(ステップ３７２)。図１５に示した例では、個々の静止画像に対応して、それぞれの静止画像に記録されている物体像に付与されたオブジェクト名のリストが示されている。

次いで、画像処理装置１は、図９(Ｂ)に示した判別テーブルを用いて、個々の静止画像においてオブジェクト名が付与された物体像について、背景オブジェクトであるか前景オブジェクトであるかを判別する処理を行う(ステップ３７３)。ここまでの処理により、画像処理装置１は、それぞれ単一の静止画像を含む個々の仮グループについて、その仮グループに含まれる画像情報に記録されたオブジェクト名および判別結果を含むオブジェクトテーブルを生成する。また、画像処理装置１は、各静止画像の画像データ、これらの画像データに含まれる物体を特定する物体識別情報、及び、これらの画像データにおける物体の位置を特定する位置情報を対応付けて記憶する記憶部１１７に、各仮グループについて生成したオブジェクトテーブルを、仮グループと関連付けて記憶する。

画像処理装置１は、このオブジェクトテーブルに基づいて、上述したステップ３０６〜ステップ３１０と同様にして、結合可能な仮グループを結合して本グループを形成する処理を行うことができる。図１５に示した例では、画像処理装置１は、仮グループ１，２に共通する物体名Ａが付与されたオブジェクトの類似性に基づいて、これらの仮グループを結合した本グループ１を形成している。また、同様に、画像処理装置１は、仮グループ３〜７に共通する物体名Ｃが付与されたオブジェクトの類似性に基づいて、これらの仮グループを結合した本グループ２を形成している。なお、図１５に示した例では、画像処理装置１は、仮グループ８に含まれる物体名Ｃが付与されたオブジェクトと、本グループ２の形成の際に結合された仮グループ３〜７に共通する物体名Ｃが付与されたオブジェクトとの類似性が低い場合を示している。

このように、本件開示の画像処理技術によれば、連続して撮影された静止画像の配列から、個々の事象の推移を表す範囲をそれぞれ分離し、それぞれの事象を示すメタデータを付与することができる。

なお、映像データに画像情報に伴って記録されている音声情報を、本件開示の画像処理技術によるメタデータの付与に利用することも可能である。

例えば、画像処理装置１は、個々の仮グループについて、音声情報のボリュームを示す数値などを補助的なオブジェクトとして抽出することができる。そして、画像処理装置１は、このような音声情報に対応する補助的なオブジェクトの共通性を、仮グループの結合処理の際に考慮することにより、周囲の騒音の大きさなどに基づいて、撮影された場面の変化を検出してもよい。

更に、画像処理装置１は、音声情報に対応するオブジェクトとして、周波数スペクトルなどの音声情報の特徴を表す情報を抽出することもできる。また、画像処理装置１は、工場に設置された個々の装置などの作動音についての学習を通して、音声情報の特徴に基づいて、当該音声を特定する音声識別情報を出力する音声認識モデルを構築しても良い。そして、画像処理装置１は、このような音声認識モデルを用いて、作動音や警告音などを、物体像と同等のオブジェクトの一つとして抽出してもよい。画像処理装置１は、このような作動音や警告音に対応して抽出されたオブジェクトに、オブジェクト名を付与することができる。そして、画像処理装置１は、物体像などと同様に、作動音や警告音に対応するオブジェクトを、仮グループ間の類似度の評価などに用いることができる。

１…画像処理装置；２１…プロセッサ；２２…メモリ；２３…ハードディスク装置(ＨＤＤ)；２４…表示制御部；２５…表示装置；２６…入力装置；２７…画像入力装置；２８…光学ドライブ装置；２９…通信制御部；３０…ネットワーク；３１…リムーバブルディスク；１００…オフライン処理部；１０１…正解付きデータセット；１０２…物体認識画像データベース(ＤＢ)；１０３…工程認識映像データベース(ＤＢ)；１０４…物体認識学習部；１０５…物体認識モデル；１０６…工程認識学習部；１０７…工程認識モデル；１１０…オンライン処理部；１１１…オブジェクト名付与部；１１２…仮グループ形成部；１１３…類似度評価部；１１４…グループ結合部；１１５…メタデータ付与部；１１６…アノテーション制御部；１１７…記憶部；１２０…ユーザインタフェース(Ｉ／Ｆ)部；１２１…表示部；１２２…指示入力部；１３２…判別部；１３４…類似度算出部

Claims

画像データ、該画像データ内に含まれる物体を特定する物体識別情報、及び、該画像データにおける該物体の位置を特定する位置情報を対応付けて記憶する記憶手段を参照して複数の画像データに含まれる同一の物体識別情報を取得し、
前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得し、
前記取得した位置情報間の差を求め、
前記位置情報間の差と所定の位置閾値とを比較し、
前記位置情報間の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する、
処理をコンピュータに実行させる画像処理プログラム。
前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の特徴量を取得し、
前記取得した特徴量間の差を求め、
前記特徴量間の差と所定の同一判定閾値とを比較し、
前記特徴量間の差と前記所定の同一判定閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する
処理をコンピュータに実行させる請求項１記載の画像処理プログラム。
前記記憶手段に更に記憶された前記画像データ内に含まれる複数の物体をそれぞれ特定する複数の物体識別情報を基に、前記複数の画像データに含まれる複数の同一の物体識別情報を取得し、
前記記憶手段を参照して、前記複数の画像データ毎に、前記取得した複数の物体識別情報で特定される複数の物体の位置情報を取得し、
前記物体毎に前記取得した複数の位置情報間の差を求め、
前記物体毎に前記位置情報間の差と所定の位置閾値とを比較し、
前記物体毎の前記位置情報間の差と前記位置閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する、
処理をコンピュータに実行させる請求項１または２記載の画像処理プログラム。
前記記憶手段に更に記憶された、事象を特定する事象識別情報と、前記事象を示す画像データに含まれる該画像データの状況を示す物体を特定する背景物体識別情報との対応情報を参照して、前記取得した物体識別情報と一致する前記背景物体識別情報を特定し、
前記特定した背景物体識別情報に対応付けて前記記憶手段に記憶された事象識別情報を取得し、
前記決定する処理において同一の分類にすると決定された複数の画像データと前記取得した事象識別情報とを対応付けて前記記憶手段に記憶する、
処理をコンピュータに実行させる請求項１から３のいずれか記載の画像処理プログラム。
前記記憶手段に前記事象を特定する事象識別情報に対応付けて更に記憶された前記背景物体識別情報で特定される物体以外の物体を示す前景物体識別情報を更に参照し、前記複数の画像データに含まれる前記取得した物体識別情報以外の物体識別情報と一致する前記前景物体識別情報を更に特定し、
前記特定した背景物体識別情報及び前記特定した前景物体識別情報に対応付けて前記記憶手段に記憶された事象識別情報を取得し、
前記決定する処理において同一の分類にすると決定された複数の画像データと前記取得した事象識別情報とを対応付けて前記記憶手段に記憶する、
処理をコンピュータに実行させる請求項１から４のいずれか記載の画像処理プログラム。
前記記憶手段に前記画像データに対応付けて更に記憶された該画像データの撮影時刻に関する時刻情報を基に、前記時刻情報の差が所定時間内の複数の画像データを取得し、
前記取得した複数の画像データのうち所定数以上の画像データに含まれる同一の物体識別情報を取得し、
前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得し、
前記取得した位置情報の差を求め、
前記位置情報の差と所定の位置閾値とを比較し、
前記位置情報の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する、
処理をコンピュータに実行させる請求項１から５のいずれかに記載の画像処理プログラム。
コンピュータが、
画像データ、該画像データ内に含まれる物体を特定する物体識別情報、及び、該画像データにおける該物体の位置を特定する位置情報を対応付けて記憶する記憶手段を参照して複数の画像データに含まれる同一の物体識別情報を取得し、
前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得し、
前記取得した位置情報間の差を求め、
前記位置情報間の差と所定の位置閾値とを比較し、
前記位置情報間の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する、
処理を実行することを特徴とする画像処理方法。
画像データ、該画像データ内に含まれる物体を特定する物体識別情報、及び、該画像データにおける該物体の位置を特定する位置情報を対応付けて記憶する記憶手段を参照して複数の画像データに含まれる同一の物体識別情報を取得する識別情報取得部と、
前記記憶手段を参照して、前記複数の画像データの各々について、前記取得した物体識別情報で特定される物体の位置情報を取得する位置情報取得部と、
前記取得した位置情報間の差を求める算出部と、
前記位置情報間の差と所定の位置閾値とを比較する比較部と、
前記位置情報間の差と前記所定の位置閾値との比較結果に基づき前記複数の画像データを同一の分類とするか否かを決定する分類部と、
を備えたことを特徴とする画像処理装置。