JP6077425B2

JP6077425B2 - 映像管理装置及びプログラム

Info

Publication number: JP6077425B2
Application number: JP2013198213A
Authority: JP
Inventors: 松尾　賢治; 賢治松尾; 山田　健太郎; 健太郎山田; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2017-02-08
Anticipated expiration: 2033-09-25
Also published as: JP2015064751A

Description

本発明は、作業中の状況が撮影された記録映像等の管理に関し、特に、作業手順書に基づいて実施および撮影された作業の記録映像に、各手順に対応する検索用インデックスを付与し、所望シーンの検索を容易にすることが可能な、また、作業についての記録映像に限らず、同様の性質を有する一人称映像にインデックスを付与することが可能な、映像管理装置及びそのプログラムに関する。

通信局舎に収納されている交換機・光配電盤・サーバ等の通信機器に対して、配線・ユニット交換・設定に代表される工事が実施される。通常、作業員は通信機器がマウントされたラックの前に立ち、事前にまとめられた作業手順書の指示に従って作業を遂行する。

近年、正確な作業が行われたことの証明や有事の際の証拠として使用する目的で、作業の途中過程も重視されるようになり、作業中の映像を記録に残すことの重要性が指摘され始めている。ここでは、作業者の対象設備に対する施工状況が漏れなく撮影されるよう、作業者の頭部に固定されたカメラから作業者の視点に近い映像を記録することを想定する。このような一人称視点から撮影された記録映像は、人材教育の一環でベテランの作業映像が手本として利用されることもある。

一方で、実際に作業開始から終了までの長尺の映像内から所望の場面を検索するには時間を要する。したがって、映像内の各場面で内容に合った見出しを付けて管理し、検索を効率化できるようにすることが望まれる。

このような、映像内の各場面で検索用の見出しを付けて管理する取り組みに関しては、以下のような従来技術がある。

本出願人による、特許文献1に記載のAR（拡張現実）と指認識によるフィールド作業支援装置は、各手順実施前の指差確認の時刻を記録することで、適切なタイミングの時刻と共に映像を記録する装置である。すなわち、各手順実施前に通信機器にかざしたタブレット上に次の作業箇所が色付けして合成表示され、次の作業箇所の指示を見た作業者は実物の該当箇所を指で差し示すことによって、正しい位置を指が差し示しているかを認識し、時刻と共に記録する。

特許文献2に記載の装置では、作業中の映像や作業データ（センサにより得られる音声・レンチのトルク等）を、作業が実施された場所・時刻と共に記録し、客観的な正確さが担保された作業記録情報として管理する。

また、映像の内容を解析することによって、検索効率化に向けた見出し付与および映像管理の実現を目指す従来技術として、以下のようなものがある。

非特許文献1に記載の方法では、蓄積映像に対して、ディゾルブ、ワイプ等の編集点の切り替わりを検出して、まとまった映像内容が続くと推測されるシーンの切り替わり位置を特定する。

非特許文献2に記載の方法では、映画を対象に、１カットの時間長の頻度分布、画像及び濃度や音響の時間変化を特徴量として、映像をコメディ、ホラー、アクションムービー等のジャンルに分類する。

非特許文献3に記載の方法では、スポーツ映像を対象にカメラワークの種別毎の頻度を特徴量として、映像を競技種目別に分類する。

特願2012-278058号「フィールド作業支援装置」特開2008-84068号公報「現場作業実施状況管理装置及び管理方法」

中島、氏原、米山、"部分複号を用いたＭＰＥＧデータからのカット点検出、"電子情報通信学会論文誌D-II、Vol.J81、No. 7、pp. 1564〜1575、1998 Zeeshan Rasheed and Mubarak Shah, "Movie genre classification by exploiting audio-visual features of previewers," ICPR 2002, pp. 1086-1089, 2002 服部、高木、小館、富永、"映像特徴に基づく自動映像分類システムの提案、"情報処理学会オーディオビジュアル複合情報処理研究会資料、Vol. 36-4, 2002

特許文献1に記載の装置では、作業者が各手順実施前に自発的に指差し操作を行う必要、すなわち、インデックス付与のために本来の作業には直接関係ない行為を追加で行う必要があった。このため、作業の正確性は高まるものの、その代償として、作業効率を低下させかねないという問題があった。単純に各手順実施前にインデックスを手動で付与しながら作業を進める方法も考えられるが、これと同様の課題を抱えている。作業者が作業中にインデックス付与のための能動的な行為を必要としない方法が望まれる。

特許文献2に記載の装置は、センサを必要としている。このため、これらにおける手法を利用できる装置が限定されるという課題がある。また、センサ類の搭載は、装置のコスト上昇を招くだけでなく、小型化や省電力化を妨げるという課題もある。また、作業中の映像や作業データを場所・時刻と共に記録はするものの、手順書内で細分化された各作業の開始点や終了点といった、重要イベントを映像から特定する手段については特段詳細が開示されていない。映像信号だけからインデックスを付与できる方法が望まれる。

非特許文献1に記載の方法では、ディゾルブやワイプ等の編集点を含まない映像に対応していないという問題があった。作業開始から終了まで編集点を含まない映像にインデックスを付与できることが望まれる。

非特許文献2に記載の方法では映画、非特許文献3に記載の方法ではスポーツと、予め編集等され、あるいはカメラワーク等が存在し、見た目に特徴的な差異がある映像間の分類を対象としている。一方で、同じ通信機器の前に立って撮影された作業中の映像には、作業進行に応じて通信機器の見た目が部分的に変化するものの、その変化は穏やかであり、明確な変化が生じにくく、非特許文献2および非特許文献3に記載の、画像から特徴量を抽出し、シーン分類する方法が有効に働かないという問題があった。このように、作業開始から終了までの作業中に大きく移動する機会は比較的稀であり、ある対象の変化を同じ場所から継続的に撮影した映像に対しても、作業手順書に記載の各手順に対応するインデックスを付与できる装置が望まれている。

以上、総括すると、以下（１）、（２）のような点において、従来装置が想定していた映像と大きく異なる特性を持つ作業状況の記録映像に対し、自動でインデックスを付与することが可能な映像管理装置を新たに提供することが望まれる。
（１）一人称視点から撮影された映像である
（２）通信機器の前に立って撮影された明確な変化が生じにくい作業中の映像である

本発明は、以上のような従来技術の課題に鑑み、作業状況を記録した映像のような特性を有する一人称映像に対して、自動でインデックスを付与することが可能な映像管理装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、所定の注視対象を捉えており、その注視箇所及び視点位置の平均が断続的に変わる一人称映像を、区間に分ける映像管理装置であって、前記一人称映像の各フレームより局所特徴量を検出し、前記所定の注視対象を所定配置で撮影した登録画像より抽出された局所特徴量と比較することで、当該各フレームにおける注視及び視点に関する測定量を算出する検出部と、前記算出された注視及び視点に関する測定量に基づいてクラスタリングを行い、各フレームに当該クラスタリング結果に応じたインデックスを付与することで、前記一人称映像を、当該各インデックスに応じた区間へと分けるインデックス付与部と、を備えることを第一の特徴とする。

また、本発明は、前記検出部が、各フレームより、回転及びスケール変化に対して頑強な点をキーポイントとして検出するキーポイント検出部と、前記検出されたキーポイントの周辺の局所領域に含まれる画像信号を、回転及びスケール変化に対して頑強な特徴量記述子へと変換すると共に、当該特徴量記述子とそのキーポイントの座標とをセットで局所特徴量となす局所特徴量記述部と、当該フレームより得られた局所特徴量と、前記登録画像より抽出された局所特徴量と、を比較して、一致すると判定されるもの同士をペアとなす局所特徴量対応比較部と、前記ペアとされた局所特徴量における座標同士の対応関係として、前記登録画像の座標系を当該フレームの座標系へと変換する射影行列を算出する射影行列推定部と、前記算出された射影行列に基づいて、当該フレームにおける注視及び視点に関する測定量を算出する注視・視点測定部と、を含むことを第二の特徴とする。

また、本発明は、パッチ画像生成部、探索範囲決定部及びテンプレートマッチング部を含む追跡部をさらに備え、前記パッチ画像生成部は、前時刻において前記算出された射影行列を前記登録画像に適用して変形し、当該変形された登録画像における局所特徴量の座標の周辺の局所領域をパッチ画像として生成し、前記探索範囲決定部は、現時刻のフレームにおいて、前記変形された登録画像における局所特徴量の座標の周辺の所定領域を、探索範囲として決定し、前記テンプレートマッチング部は、現時刻のフレーム内にて前記決定された探索範囲を対象として、対応する前記生成されたパッチ画像をテンプレートとしてテンプレートマッチングの探索を実施し、探索結果の位置座標を求め、前記射影行列推定部は、前記登録画像の座標系を当該フレームの座標系へと変換する射影行列を算出するに際して、前記局所特徴量対応比較部によりペアとされた局所特徴量における座標同士の第一の対応関係と、前記テンプレートマッチング部による探索結果で得られる座標同士の第二の対応関係と、のいずれかを用いることを第三の特徴とする。

さらに、本発明は、コンピュータを上記映像管理装置として機能させるプログラムであること第四の特徴とする。

上記第一又は第四の特徴によれば、一人称映像における注視及び視点を客観的数値として時系列で求め、当該時系列に基づいてクラスタリングを行うことにより、インデックスを付与して区間分けすることができるようになる。一人称映像が機器を対象とした作業の記録映像である場合には、各手順に対応する区間分けができるようになる。

上記第二の特徴によれば、一人称映像の各フレームにおいて回転、スケール変化及びオクルージョンの影響を抑制したうえで、インデックス付与が可能となる。

上記第三の特徴によれば、追跡部の利用も可能となることで、登録画像がフレームアウトして部分的にしか写っていない場合でも、また、注視対象に近づいて、登録画像の一部をズームアップした映像が得られた場合でも、継続して現時刻のフレーム画像に対する登録画像の空間上の関係を把握可能となり、注視及び視点に関する測定量を算出することができる。

一実施形態に係る映像管理装置の機能ブロック図である。一実施形態に係る本発明のフローチャートである。一人称映像としての記録映像を取得するために作業者が身につけるカメラの例を示す図である。注視及び視点に関する測定量を概念的に説明するための図である。記録映像に対して付与されるインデックスを概念的に説明するための図である。図２のステップS2〜S4の詳細を説明する際に参照する図である。図２のステップS3の詳細なフローチャートである。フレームの座標系に変換された登録画像における面積及び重心の例を、図４に対応する例で示す図である。図８の例とは逆に、登録画像の座標系にフレーム画像を変換する例を示す図である。

図１は、一実施形態に係る映像管理装置の機能ブロック図である。映像管理装置10は、フレームキャプチャ部1、記憶部2、登録部20、検出部3、追跡部4及びインデックス付与部5を備える。各部の概要は、以下の通りである。ここではまず、形式的な観点として、各部でやりとりされるデータの流れでの観点を主軸に、概要を説明する。すなわち、図１の枠組みのみをまず説明する。各部の処理内容の詳細や意味合いその他の、実質的な内容については後述する。

フレームキャプチャ部1は、本発明にてインデックス付与の対象となる作業状況の記録映像を受け取り、一定間隔でそのフレーム画像をサンプリングする。なお、レートを落とさず、記録映像のフレームレートのままでサンプリングしてもよい。当該サンプリングされたフレーム画像は入力画像として検出部3及び記憶部2に渡され、また、後述する判断がなされた場合にはさらに、併せて追跡部4にも渡される。

記憶部2は、映像管理装置10の各部が機能するために必要となる各種のデータを各部より受信して記憶し、当該データが必要な際には参照に供する。なお、図１では記憶部2から参照に供するデータの流れの矢印は、主要なもののみを記載している。前記サンプリングで得られた入力画像や後述する座標群その他任意のデータも、記憶部2に記憶された後は適宜、任意の機能部より参照可能となる。しかし、こうした参照の流れの矢印は、煩雑となるため図１では描くのを省略している。

なお、記憶部2では、一度記憶したデータで以降参照の必要のないものについては消去し、必要なデータを必要な期間だけ記憶するようにしてよい。

登録部20は、ユーザ等によって予め用意される登録画像を受け取り、登録座標群及び登録記述子群を算出して、記憶部2に記憶させる。当該算出し記憶される登録座標群及び登録記述子群によって、映像管理装置10によるインデックス付与の処理が可能となる。

登録部20は、当該算出するための構成として、キーポイント前段検出部21及び局所特徴量前段記述部22を備える。キーポイント前段検出部21は、登録画像より登録座標群を算出し、記憶部2及び局所特徴量前段記述部22に渡す。局所特徴量前段記述部22は、登録画像及び登録座標群より登録記述子群を算出して、記憶部2に渡す。

なお、ここで「登録座標群」及び「登録記述子群」はそれぞれ、「登録画像の（キーポイントの）座標群」及び「登録画像の記述子群」の略称であり、以下の検出部3でフレーム画像において求まる座標群及び記述子群と（特に、スペース上の制約がある図１の表記内において）区別するためのものである。また、「記述子（群）」は、後述の詳細説明における「特徴量記述子（群）」の略称である。

検出部3は、フレームキャプチャ部1の出力する時系列上の一連のフレーム画像をそれぞれ入力画像として受け取り、注視及び視点についての測定量を算出して、インデックス付与部5へと渡す。検出部3は、当該算出するための構成として、キーポイント検出部31、局所特徴量記述部32、局所特徴量対応比較部33、射影行列推定部34及び注視・視点測定部35を備える。

キーポイント検出部31は、当該受け取る時系列上の一連の入力画像の各々につき、キーポイントの座標群を算出して、座標群を記憶部2及び局所特徴量記述部32に渡す。局所特徴量記述部32は、算出された座標群の各座標につき、入力画像内における記述子を算出することで座標群に対応する記述子群を算出し、局所特徴量対応比較部33及び記憶部2に渡す。

局所特徴量対応比較部33は、入力画像に対してキーポイント検出部31及び局所特徴量記述部32で算出された座標群及び記述子群と、登録画像に対して登録部20で算出された登録座標群及び登録記述子群と、を比較することで対応座標群を算出し、射影行列推定部34に渡す。ここで、対応座標群とは、当該比較によって、両座標群のうちペアをなすものとして特定されたものである。

なお、局所特徴量対応比較部33は、当該算出された対応座標群が精度等の観点で不適切であると判断した場合には、当該算出した対応座標群を射影行列推定部34に渡さない。この場合、後述する追跡部4が代わりの処理を担う。

射影行列推定部34は、局所特徴量対応比較部33の算出した対応座標群により、又は、この代わりとして後述する追跡部4におけるテンプレートマッチング部43の算出した対応座標群により、射影行列を算出して注視・視点測定部35及び記憶部2に渡す。なお、当該算出された射影行列は、当該時点における入力画像と予め用意された登録画像との位置・姿勢関係を表している。

注視・視点測定部35は、算出された射影行列より、当該時点における入力映像に対する注視及び視点に関する測定量を算出し、インデックス付与部5に渡す。インデックス付与部5は、時系列上の一連の入力画像につき当該算出された測定量により、各入力画像にインデックスを付与する。

追跡部4は、検出部3における局所特徴量対応比較部33の算出した対応座標群が精度等の観点で不適切であると判断された場合に、代わりに対応座標群を算出して、射影行列推定部34へと渡す。追跡部4は、当該代わりに算出するための構成として、パッチ画像生成部41、探索範囲決定部42及びテンプレートマッチング部43を備える。

ここで、当該各部41, 42, 43の説明のために、時間の先後に関して用語を次のように定める。局所特徴量対応比較部33が、自身の算出した対応座標群が精度等の観点で不適切であると判断した際の入力画像を、「現時刻」の入力画像とする。また、当該「現時刻」より前を「前時刻」とする。

パッチ画像生成部41は、登録画像及びその登録座標群に前時刻の射影行列を適用し、変形した登録画像における登録座標の周辺の局所領域として、パッチ画像を生成する。探索範囲決定部42は、当該生成されたパッチ画像に対応する箇所を現時刻の入力画像から(次のテンプレートマッチング部43が)探索するための探索範囲を、登録座標群に前時刻の射影行列を適用して移動した先の所定範囲として定め、テンプレートマッチング部43に渡す。なお、各部41,42では上記処理を行うに際して、登録画像、登録座標群及び前時刻の射影行列を、記憶部2を参照して得る。

テンプレートマッチング部43は、パッチ画像の各々をテンプレートとして、現時刻の入力画像における探索範囲内をテンプレートマッチングで探索して、一連のパッチ画像にマッチングした箇所の一連の位置座標を、対応座標群として射影行列推定部34に渡す。

以上、データの流れのみに着目した形式的な観点にて、図１の各部の概要を説明した。以下、これらの実質的な内容（処理の詳細を含む）を説明する。

図２は、本発明の一実施形態に係るフローチャートである。ステップS1は、ユーザ等によってなされる準備としてのステップであり、以降のステップS2〜S4が、映像管理装置10が自動で実行するステップである。

ステップS1では、ユーザ等が、映像管理装置10への入力としての、登録画像及び記録映像を用意する。記録映像については、通信機器を前にして作業者が手順書に従って作業した際に撮影して得られる、一人称映像を用意する。

図３に、一人称映像としての記録映像を取得するために作業者が身につけるカメラの例を示す。例えば、(1)に示すように、作業者Pはヘルメットマウント型のカメラHで作業対象の設備Wを撮影する。あるいは(2)に示すように、作業者Pは耳かけ型のカメラMで撮影してもよい。その他、例えば眼鏡に設置されたカメラで撮影してもよい。

このようなカメラで撮影される記録映像においては、作業者の対象設備に対する施工状況が、作業者の視点に近い映像として、漏れなく撮影されることを想定する。記録映像には設備対象の全体が常に写っているわけではなく、各手順に応じて設備対象内の様々な作業箇所を注視すると同時に、作業者が設備対象との距離や立ち位置を変えながら、視点を変えて映像が撮影される。

ここで、作業手順に従いながらも、作業者の注視および視点には首の振りや体の微動によるノイズ成分が多々含まれることにより、記録映像は次のような性質を有する。すなわち、瞬間的には頻繁に変動しているが、長期的には各手順の作業箇所へ集中するという性質である。言い換えれば、各手順がなされる期間内において平均すると作業箇所が得られ、且つ、当該期間内では小さな揺らぎを伴うものの、当該作業箇所から大きく乖離することはないという性質である。

本発明によれば、このように各手順に対応して所定の作業箇所に集中している期間の記録映像内における区別を、インデックスとして自動で算出することが可能となる。

なお、記録映像は、別途設置した固定カメラから撮影された映像とは異なり、作業者の容姿が大きく写り込む映像ではないが、その途中においてオクルージョンが発生することはありうる。当該発生は、作業を行うために作業箇所へと伸ばした作業者自身の手、あるいは作業者の手にしたジグ等が部分的に写り込むことその他の原因による。

また、ステップS1にて記録映像と共に用意する登録画像は、当該記録映像における作業の対象設備の画像として用意すればよく、対象設備の作業対象箇所の全体あるいは大部分が収まる画像を登録画像とすればよい。また、当該全体箇所は、概ね平面として構成されており、当該平面を概ね正面から見た状態で、登録画像を用意することが好ましい。例えば、作業対象が通信機器であれば、当該通信機器を格納したラックを正面から見た状態で登録画像を用意することが好ましい。

上記のような登録画像は、作業手順上で規定しておくこと等により、作業と並行して記録映像を撮影している際に、作業者が当該規定に従って、登録画像として採用可能なカメラ配置で撮影を行うようにして、記録映像内のフレーム画像より取得してもよい。例えば、作業開始の際に正面から対象設備全体の撮影を行うようにしておき、記録映像の冒頭付近からマニュアル選択で登録画像を取得してもよい。

なお、ステップS1ではさらに、ユーザが登録画像に対してその一部分を基準領域として設定しておいてもよい。基準領域としては、登録画像内で対象設備の箇所のみを（その他の背景などから区別する形で）指定することが好ましい。基準領域の指定には任意の形状を利用できるが、ステップS2以降の映像管理装置10による画像処理の負荷を低減する観点からは、対象設備の四隅を指定する等して矩形で指定することが好ましい。また、登録画像が対象設備のみを全面（あるいはほぼ全面）で捉えた画像であるならば、当該登録画像の全体を基準領域として設定すればよい。

ステップS2では、登録部20が、登録画像より座標等の算出処理を行う。ステップS3では、検出部3が、記録映像より注視及び視点に関する測定量を時系列（当該記録映像上の時刻に対応する時系列）として算出する。この際、追跡部4は適宜、検出部3の処理を補助する。ステップS4では、インデックス付与部5が、記録映像に対するインデックス付与を行う。

以下、当該ステップS2〜S4に関連して、本発明の原理に関連する事項を概念的に説明してから、各ステップの詳細を説明する。

図４は、ステップS3で検出部3により算出される注視及び視点に関する測定量を概念的に説明するための図である。図４では、床などの地面G上に直方体状の作業対象Wが配置された作業空間が示されている。当該作業空間において、作業者Pは作業手順に従って所定箇所に移動して作業を行う。当該移動する箇所の例として、箇所L1〜L3が示されている。箇所L1〜L3はすなわち、図３の例で説明したような、作業者が身につけ作業者と共に移動するカメラの存在する箇所である。なお、欄C1〜C3は、作業空間とは別途の説明欄である。

図４の例では、まず、作業者Pは作業対象Wの正面である箇所L1において、ステップS1における登録画像の取得を行う。当該登録画像は、画像F1として欄C1内に示されている。次に、作業者Pは、作業を開始すると共に、ステップS1における記録映像の取得、すなわち記録映像の撮影を開始する。なお、前述のように、記録映像の冒頭付近の一画像が登録画像として指定される等してもよい。

当該作業しながら撮影を行う作業者Pは、まず、箇所L2において第一作業（例えば、「モジュールAの電源をオンにする」作業）を実施する。当該第一作業実施の際の典型的な記録映像の画像が、欄C2に示す画像F2である。次に、作業者Pは箇所L3において第二作業（例えば、「モジュールBの電源をオフにする」作業）を実施する。当該第二作業実施の際の典型的な記録映像の画像が、欄C3に示す画像F3である。

このように、作業箇所が異なる第一作業と第二作業とを記録映像のみから区別し、異なるインデックスを付与するために、ステップS3において注視及び視点に関する測定量を算出する。当該２つの測定量の意義はそれぞれ、以下（１）,（２）の通りである。

（１）注視に関する測定量は、作業者が作業対象のどこを見ているか（作業対象上のどの箇所を見ているか、すなわち、作業対象上の注視位置）によって定まる量である。図４の例では、第一作業においては、画像F2に示すように、作業対象W前面のうち、右側の星の模様がある箇所を注視している。第二作業においては、画像F3に示すように、作業対象W前面のうち、左側の丸の模様がある箇所を注視している。

（２）視点に関する測定量は、作業者が作業対象をどこから見ているか（視点の位置及び方向、すなわち、カメラの位置及び姿勢）によって定まる量である。図４の例では、第一作業においては、箇所L2として示すように、作業対象Wの右寄りの箇所L2から作業対象Wを見ている。第二作業においては、箇所L3として示すように、作業対象Wの左寄りの箇所L3から作業対象Wを見ている。

以上のような意義を有する注視及び視点に関する測定量は共に、予め登録しておく登録画像（図４の例では画像F1）と、各時点における記録映像内の画像（図４の例では画像F2, F3等）と、を比較することによって算出される。当該算出の詳細は後述する。

図５は、ステップS4でインデックス付与部5により記録映像に対して付与されるインデックスを概念的に説明するための図である。(1)に示す記録映像には、作業規定書などに規定された手順1〜手順4がなされた模様が作業者視点で記録されている。作業対象の設備はラックに格納された通信機器であり、その登録画像は画像F10として示され、記録映像の冒頭付近から取得されている。

手順1は対象設備右端を作業箇所とし、手順2は対象設備右側に回り込んだ作業である。また、手順3は対象設備内左下付近を作業箇所とする作業であり、手順4は反対に対象設備内右上を作業箇所とする作業である。当該手順1〜4の際に記録映像内で得られる画像の典型的な例がそれぞれ、図５に示す画像F11〜F14である。

ステップS4の前段であるステップS3の検出部3の処理によって、各手順のなされる期間内においてはそれぞれ、各手順がなされた際の作業者の配置に対応した特徴的な値に近い値として、注視及び視点に関する測定量が得られる。例えば、手順1がなされる間は測定量はX1付近であり、手順2がなされる間は測定量はX2付近であり、…といったように、各手順iの際は概ね、当該手順i(の際の作業者の平均的な配置)に応じて定まる特徴的な値Xiの付近で測定量が得られる。

従って、ステップS4にてインデックス付与部5が、当該注視及び視点に関する測定量を各フレーム画像の特徴量に用いてクラスタリングを行うことで、図５の(2)に示すように、手順1〜4に対応するクラスタC11〜C14に分ける形での、記録映像に対するインデックス付与が可能となる。当該付与の詳細は後述する。

以下、図２のステップS2〜S4の詳細をそれぞれ説明する。図６は、当該詳細を説明する際に適宜参照するための図である。

ステップS2では、キーポイント前段検出部21及び局所特徴量前段記述部22が登録処理を行う。その際の各部間でのデータ授受は図１を参照して前述した通りであり、詳細は次の通りである。

ステップS2ではまず、キーポイント前段検出部21が、登録画像より、画像に回転やスケール変化が加わっても特徴的に表れるエッジや凹凸などの信号変化の大きい点をキーポイントとして複数個検出し、それらの座標群（図１表記における登録座標群）を算出する。当該検出には、画像処理の分野で提案されている既存のキーポイント検出手法が適用可能である。例えば、以下の[非特許文献４], [非特許文献５]にそれぞれ記載のSIFTやFASTなどが適用可能である。

[非特許文献４] D. Lowe, "Distinctive Image Features from scale-invariant key points," International journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.
[非特許文献５] E. Rosten and T. Drummond, "Machine learning for high-speed corner detection," European Conference on Computer Vision, pp. 430-443, 2006.

ステップS2では次に、局所特徴量前段記述部22が、キーポイント前段検出部21によって登録画像において検出されその座標が算出されたキーポイントの各々につき、キーポイント周辺の局所領域に含まれる画像信号を回転やスケール変化の影響を受けにくい特徴量記述子（図１表記における登録記述子(群)）へと変換する。当該変換される特徴量記述子には、画像処理の分野で提案されている既存の特徴量記述子が適用可能である。例えば、上記の[非特許文献4]や以下の[非特許文献６], [非特許文献７]にそれぞれ記載のSIFT、ORB、Fernsなどが適用可能である。

[非特許文献６] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: an efficient alternative to SIFT or SURF," International Conference on Computer Vision, pp. 2564-2571, 2011.
[非特許文献７] M. Ozuysal, P. Fua, and V. Lepetit, "Fast Keypoint Recognition in Ten Lines of Code," Conference on Computer Vision and Pattern Recognition, 2007.

以上、登録画像を対象としてステップS2にて求められたキーポイントの「座標」及び「特徴量記述子」のセットを、以降の説明のため、「局所特徴量」と呼ぶ。当該ステップS2で求められた複数の局所特徴量は記憶部2に格納して登録され、ステップS3で参照して利用される。

図６の(1)は、登録画像において当該求められたキーポイントの座標位置の各々を「×」印によって例示するものである。当該キーポイント座標においてそれぞれ特徴量記述子が求められることで、局所特徴量となる。なお、図６の(1)以外は、ステップS3の説明にて後述する。

なお、ステップS1にて登録画像に基準領域を設定した場合は、ステップS2における局所特徴量の算出処理は、当該基準領域のみに限定して行う。例えば、図６の(1)の例であれば、灰色表記の長方形の内部を基準領域に設定してもよい。この場合、当該長方形の内部のみがステップS2の処理対象領域となるため、当該長方形の外部にある「×」印で描かれたキーポイントは算出されないこととなる。

ステップS3では、記録映像に対してフレームキャプチャ部1がサンプリングを行うと共に、当該サンプリングで得られる一連の時系列上の入力画像を対象として、検出部3及び追跡部4が処理を行い、注視及び視点に関する測定量を一連の時系列として算出する。その際の各部間でのデータ授受は図１を参照して前述した通りであり、その詳細は以下の通りである。

図７は、当該ステップS3における処理の詳細なフローチャートである。

ステップS10では、フレームキャプチャ部1が記録映像に対してサンプリングを実施し、検出部3及び追跡部4に対する一連の時系列上の入力画像となし、ステップS11へ進む。以下、当該時系列上の入力画像をフレームと称し、カウンタiを設けてフレームi（i=1, 2, ..., N; Nはフレーム総数）として、順序を含めて識別するものとする。なお、次のステップS11に移行する際に、当該カウンタiを最初の値1に設定しておく。

ステップS11では、検出部3及び追跡部4が、当該時点iのフレームiを処理対象として読み込み、ステップS12へ進む。なお、追跡部4におけるフレームiの読み込みは、後述のステップS13にてステップS21へと進む判断が下された時点でなされるようにしてもよい。（従って、当該判断が下されなければ、追跡部4ではフレームiを読み込まないようにしてもよい。）

ステップS12では、検出部3におけるキーポイント検出部31、局所特徴量記述部32及び局所特徴量対応比較部33が、当該フレームiを対象とした処理をこの順番(各部に付与された参照番号である31, 32, 33の順番)で行ってから、ステップS13へ進む。その際の各部間でのデータ授受は図１を参照して説明した通りであり、詳細は以下の通りである。

ステップS12ではまず、キーポイント検出部31及び局所特徴量記述部32が、前述の図２のステップS2においてキーポイント前段検出部21及び局所特徴量前段記述部22がそれぞれ登録画像に対して行ったのと同一の処理を、フレームiを対象として行う。ただし、登録画像において処理対象を基準領域へと限定した場合であっても、フレームiについてはそのような限定は行わず、フレームiの全体を処理対象に設定する。

なお、「同一」処理であるので、例えばキーポイント前段検出部21がキーポイント検出手法としてSIFTを利用していれば、キーポイント検出部31もSIFTを利用することとなる。局所特徴量記述部32についても同様に、局所特徴量前段記述部22と同種類の特徴量記述子を求めることとなる。

こうして、キーポイント検出部31によりフレームiから複数のキーポイントが検出されその座標が各々算出されると共に、局所特徴量記述部32により当該フレームiのキーポイント座標における特徴量記述子が算出される。当該座標及び特徴量記述子をセットで「局所特徴量」と呼ぶこともステップS2におけるのと同様である。図６の(2)に、フレームiから検出されたキーポイントの例を、(1)に示す登録画像の場合と同様に、「×」印として示す。

ステップS12では次に、局所特徴量対応比較部33が、フレームiを対象として局所特徴量記述部32及び局所特徴量対応比較部33によって求まった一連の局所特徴量と、ステップS2において登録画像より求まっている一連の局所特徴量と、を比較し、当該両画像（フレームi及び登録画像）間において同一であると考えられる局所特徴量を、局所特徴量ペア群として対応付ける。

当該対応付けの際、局所特徴量同士の距離を差分二乗和などの所定方式で定義して、距離が所定値より小さい局所特徴量同士を互いに一致するものとして対応付ければよい。なお、当該距離は、座標及び特徴量記述子のセットである局所特徴量のうち、特徴量記述子のみの関数として定義される距離である。また、当該対応付けの際、以下の[非特許文献8]に記載の方法で、アウトライヤ除去し、高精度化することもできる。

[非特許文献８] D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond, and D. Schmalstieg, ''Real-Time Detection and Tracking for Augmented Reality on Mobile Phones,'' IEEE Trans. on VCG, Vol. 16, No. 3, pp. 355-368, 2012.

図６の(3)は、当該局所特徴量対応比較部33によってなされた対応付けの例を示すものである。ここでは、(1)の登録画像における一連の局所特徴量と、(2)のフレームiの一連の局所特徴量と、の間において、一致し互いに対応していると判定されたペアが、点線T1〜T5として示すように、合計で5組見つかった例が示されている。当該対応付けの効果として、作業の記録映像において手などによるオクルージョンが発生しても、その影響を抑制することが可能となる。

ステップS13では、局所特徴量対応比較部33が、自身がステップS12にて行った局所特徴量同士の対応付けに関して、精度の観点で適切であったか否かを判定する。具体的には、対応付けられたペアの総数が事前に設定されたしきい値を超えた場合には、適切であったと判定してステップS14へと進み、超えなかった場合には、適切ではなかったと判定してステップS21へと進む。

ステップS14では、当該フレームiを対象として、射影行列推定部34が射影行列を推定した後、注視・視点測定部35が注視及び視点に関する測定量を算出してから、ステップS15へと進む。その際の各部間でのデータ授受は図１を参照して説明した通りであり、その詳細は以下の通りである。

ステップS14ではまず、射影行列推定部34が、当該フレームiに対してステップS12において局所特徴量対応比較部33により対応付けられた局所特徴量ペア群（図６の(3)で例示した）から、当該ペアをなしている座標群（局所特徴量群における座標群）同士を変換する関係として、登録画像の点を現時刻のフレームi上の座標系へ変換するための射影行列を求める。座標群ペアが与えられた際の当該射影行列の算出は、画像処理の分野において周知であるので、その説明は省略する。

ステップS14では次に、注視・視点測定部35が、当該現時刻iのフレームiに対して射影行列推定部34が求めた射影行列を用いて、当該フレームiの座標系における登録画像の相対位置を算出し、当該相対位置に基づいて注視及び視点に関する測定量を算出する。当該算出には、以下の第一〜第三実施形態のように、種々の実施形態が可能である。

第一実施形態では、フレームiの座標系に変換された登録画像の面積及び／又は重心によって、注視及び視点に関する測定量を定めてもよい。面積は、変換された座標系において、一般に歪んだ形状となっている登録画像の面積として求めればよい。重心は、変換前の登録画像において定まる重心位置が、変換された座標系において移動した先として求めればよい。なお、ステップS1において登録画像に基準領域を設定している場合は、登録画像全体の面積及び／又は重心の代わりに、基準領域の面積及び／又は重心を利用する。

なお、「注視に関する測定量」と「視点に関する測定量」とは、図４で説明したように別の概念であるが、それらを統合した測定量として、「注視及び視点に関する測定量」を、面積及び／又は重心によって定めてよい。例えば、面積A及び重心(Gx, Gy)の両者を用いる場合であれば、これらを連結したベクトル(A, Gx, Gy)等を、「注視及び視点に関する測定量」として定義してよい。

図８は、フレームの座標系に変換された登録画像における面積及び重心の例を示す図である。図８では、図４の例に対応する例が模式的に示されており、図４における登録画像F1をフレームF2及びF3の座標系に変換した例がそれぞれ(A)及び(B)に示されている。

図８の(A)では、登録画像F1をフレームF2の座標系(x2, y2)に変換したものを画像F1[2]（その面積がA1[2]）として、また、その重心をG1[2]として示している。重心G1[2]は、フレームF2が画像として占める範囲の外に存在している。図８の(B)では、登録画像F1をフレームF3の座標系(x3, y3)に変換したものを画像F1[3]（その面積がA1[3]）として、また、その重心をG1[3]として示している。重心G1[3]は、フレームF3が画像として占める範囲の外に存在している。

第二実施形態では、上記第一実施形態とは逆に、射影行列（第一実施形態における射影行列の逆行列）の適用により各時刻iのフレームを登録画像の座標系に変換して、当該座標系で登録画像に重複して占める領域における面積a及び／又は重心(gx, gy)によって、注視及び視点に関する測定量を定めてもよい。

図９は、図８の例とは逆に、図４の登録画像F1並びにフレームF2及びF3の例において、登録画像F1の座標系(x1, y1)にフレームF2及びF3を変換した画像を、それぞれ画像領域F2[1]及びF3[1]として、模式的に示している。当該第二実施形態にて、面積及び／又は重心は、当該領域F2[1]及びF3[1]がそれぞれ登録画像Fと重複する箇所において算出すればよい。

第三実施形態では、算出された射影行列よりカメラの位置姿勢を求め、当該位置姿勢におけるカメラの光軸が登録画像の平面と交差する箇所の登録画像の座標上における値を、注視に関する測定量とし、当該カメラの空間的な位置を、視点に関する測定量としてもよい。カメラの位置姿勢を求めるには、登録画像を得た際のカメラの位置姿勢に所定の空間条件（例えば、登録画像はカメラの光軸に対して垂直な平面を撮像対象としたものであり、当該撮像対象はカメラから所定距離だけ離れている等）を予め仮定して、あるいは、予め実測して与えておき、当該条件で与えた空間内において、周知の関係を用いて射影行列より求めればよい。

以上、図７のステップS14の後半側の処理としての、注視・視点測定部35の処理を説明した。図７の説明に戻り、ステップS15では、全てのフレームiにつき処理が完了したかが判断される。完了していなければ、ステップS16へ進んで、フレームのカウンタiの値を1だけ増分することで、当該フレームiの次のフレームi+1を処理対象に設定してから、ステップS11へ戻り、同様の処理を繰り返す。全フレームの処理が完了していれば、当該図７のフロー、すなわち、図２のステップS3は終了であり、図２においてステップS4へと進む。

図７のステップS13の説明に戻り、適切ではなかったと判定した場合は、ステップS21へ進む。ステップS21では、当該フレームiを対象として、追跡部4におけるパッチ画像生成部41、探索範囲決定部42及びテンプレートマッチング部43が各処理を行ってから、ステップS22へと進む。その際の各部間でのデータ授受は図１を参照して説明した通りであり、その詳細は以下の通りである。

第一処理として、パッチ画像生成部41は、当該現時刻iの前時刻i-1(直近の過去)のフレームi-1に対して射影行列推定部34で算出された射影行列を、登録画像に適用して変形することで、当該前時刻i-1におけるカメラの位置姿勢での登録画像の見え方（すなわち、対象設備の見え方）を表現する画像（以下「前時刻配置での登録画像」と呼ぶ）となす。当該変形する際に、登録画像におけるキーポイントの座標群も併せて変形する（すなわち、各座標を射影行列の適用によって移動させる）ことで、「前時刻配置での登録画像」におけるキーポイント座標群も求める。

そして、パッチ画像生成部41は、当該変形して求まった「前時刻配置での登録画像」において、そのキーポイント座標群の各々の周辺の局所領域を切り出すことで、複数のパッチ画像を生成する。ここで、局所領域のサイズ及び形状は、所定サイズ及び所定形状を設定しておく。なお、登録画像に基準領域が設定されていれば、当該第一処理は基準領域のみを対象として行えばよい。

第二処理として、探索範囲決定部42は、上記パッチ画像の各々に対して、パッチ画像に対応する領域を現時刻iのフレームiから（次のテンプレートマッチング部43が）探索するための探索範囲を決定する。当該探索範囲は、上記パッチ画像生成部41で得た「前時刻配置での登録画像」におけるキーポイント座標の周辺範囲（当該キーポイント座標を内部に含む所定範囲）として設定すればよい。当該周辺範囲の設定は、前時刻のフレームi-1と現時刻のフレームiとの差が大きくなることはなく、従って、キーポイントの位置も大きくは変わらないことが多い、ということに基づくものである。こうして、フレームiの全体ではなく一部分に限定して設定することで、探索の負荷の低減という効果が得られる。

第三処理として、テンプレートマッチング部43は、パッチ画像生成部41によるパッチ画像をテンプレートとして、現時刻iのフレームiにおける探索範囲決定部42の決定した探索範囲の内部を探索（テンプレートマッチング）する。さらに、一連の当該探索された位置の座標群を、対応するパッチ画像の元の登録画像におけるキーポイント座標群と対応付けたものを、対応座標群として出力する。

なお、当該探索の際は評価尺度として、例えば正規化相関を用いることができる。各パッチ画像によって対応する各探索範囲を探索する際において、評価尺度の値が所定の閾値を超える場合に、検出され探索されたものと判定してその座標を出力結果の１つとして採用すると共に、当該閾値を超えない場合には、探索できなかったものとして、出力結果には含めない。

なおまた、以上のステップS21は、単一の解像度で行うことを前提に説明したが、縦横多重解像度画像に対して段階的に行うようにしてもよい。すなわち、例えば1/2の縮小画像も作成し、縮小画像内で大まかな位置決めをした後に元の解像度の画像内で詳細に探索するようにしてもよい。

当該段階的に行う場合、パッチ画像も、例えば、8×8画素サイズのパッチ画像を縮小画像からは25個、元の解像度の画像からは50個生成する、といったようにすればよい。また、探索範囲も、縮小画像内では周辺9画素、元の解像度の画像内では周辺2画素に限定する、といったようにすればよい。そして、探索結果の閾値判定も、例えば、正規化相関の値がしきい値0.7を超えたパッチが縮小画像内で10個以上、元の解像度の画像内で20以上見つかった場合、追跡に成功したと判定する、といったようにすればよい。

ステップS22では、テンプレートマッチング部43が、自身がステップS21にて一連のテンプレートマッチングを行って得た対応座標群が、精度の観点で適切であったか否かを判定する。具体的には、当該得られた対応座標群を構成しているペアの数、すなわち、上記評価尺度が所定の閾値（第一閾値）を超えると判定された数が、所定の閾値（第二閾値）を超えるか否かで、適切であるか否かを判定する。適切であると判定した場合はステップS23へと進み、適切でないと判定した場合はステップS31へと進む。

ステップS23では、ステップS14とほぼ同様の処理がなされるが、この際、１点のみステップS14と異なる処理がなされる。すなわち、射影行列推定部34が射影行列の算出に用いる対応座標群が、ステップS14の場合のように局所特徴量対応比較部33が出力したものではなく、ステップS23では代わりにテンプレートマッチング部43が出力したものである、という点である。ステップS23を終えるとステップS15へ進む。

ステップS31では、当該フレームiにおいては適切に注視及び視点に関する測定量を算出することは不可能であると判断し、当該算出を放棄して、ステップS15へ進む。なお、この場合、当該フレームiにおける注視及び視点に関する測定量には、エラーの旨の情報を与えておいてもよいし、直近の過去で当該エラーがなく算出された値を割り当てるようにしてもよい。

以上のように、図７のフローにおいては、各フレームiの注視及び視点に関する測定量を算出するに際して、ステップS14の側を通過した場合の検出部3による対応座標群と、ステップS21の側を通過した場合の追跡部4による対応座標群と、が互いに切り替えられて選択的に利用されることとなる。当該選択的な利用により、以下のような効果が得られる。

すなわち、当該検出部3及び追跡部4の切り替えによって、より確実に継続的に、注視及び視点に関する測定量が取得可能となる。例えば、対象設備全体が写り込むように登録画像が撮影されていた場合、検出部3だけの構成であったとすると、登録画像がフレームアウトして部分的にしか写っていない場合に、局所特徴量対応比較部33にて対応付けられる局所特徴量の数が減少し、以降の処理を実行できず検出に失敗する。しかしここで、追跡部4を追加することにより、登録画像から直接的にではなく、1つ前の時刻のフレーム画像から、現時刻のフレーム画像との空間上の関係を求めることができるようになる。同様に、作業員が対象設備に近づいて、登録画像の一部がズームアップされ、他の部分は見えなくなっている記録映像が得られた場合でも、検出に失敗することなく、以降の処理が継続可能となる。

以上、図７のフローすなわち図２のステップS3の詳細を説明した。図２に戻り、ステップS4では、図５で概念的に示したように、インデックス付与部5が、ステップS3で得られた注視及び視点に関する測定量に基づき、記録映像の各フレームにインデックスを付与する。当該インデックスは、付与された結果として、作業手順書に記載の手順（そして、当該作業手順書に従って作業がなされた記録映像における手順）の各々に対応したものとなる。

具体的には、記録映像全体を通して出力される注視及び視点に関する測定量が分布する空間を、手順総数と等しいクラスタ数に分類すると同時に、各フレームにクラスタ番号に相当するインデックスを付与する。この際、クラスタリングには、k-meansやGMM（混合ガウスモデル）等の既存のクラスタリング手法を適用することができる。手順総数は、映像管理装置10を利用するユーザ側よりマニュアルで与える。

例えば、注視及び視点に関する測定量が、対象設備の重心座標（Gx、Gy）および面積Aとして取得されていれば、各フレームの特徴量をこれらからなるベクトル（Gx、Gy、A）として定義し、クラスタリングを実施すればよい。またさらに、注視及び視点に関する測定量と、フレーム番号iと、によって特徴量を定義し、上記の例であればベクトル（Gx、Gy、A、i）を特徴量とし、クラスタリングを実施してもよい。この際、番号iの連続性を、クラスタリングにおける類似度評価において考慮するようにしてもよい。また、当該ベクトル（Gx、Gy、A）あるいは（Gx、Gy、A、i）やその他、当該ベクトルの要素のうち一部分のみを採用したもの等を特徴量とし、クラスタリングを行う際は、各要素に所定の重み付けを行うようにしてよい。

また、各手順に関する予想作業時間が、過去の平均の所用時間等としてあらかじめわかっていれば、クラスタリングにおいて時間的に分割位置を制約する条件として、ユーザ側よりマニュアルで与えたうえで用いてもよい。例えば、手順1及び手順2を撮影した記録映像が60分であり、手順1, 2の平均所要時間が20分, 40分と既知であれば、当該既知の条件から定まる所定範囲、例えば映像開始後15分〜25分の範囲で、分割位置を決定するようにしてもよい。

以上、インデックス付与部5によるクラスタリングにより、記録映像は、作業手順の数に一致する区間へと自動で分けられることとなる。一般には、１つの作業の途中において瞬間的に作業対象から視点が離れるようなこともありうるが、特にフレーム番号iを考慮したクラスタリングによれば、そのような瞬間で区間が誤って区切られることなく、適切な区間を得ることができる。同様に、ある作業から別の作業に移る際には一般に、注視及び視点の遷移が発生するが、当該遷移が発生している際の一連の映像も、その遷移の前後のいずれかの区間へと、適切に分類されることとなる。

以下、本発明における補足事項（１）〜（７）を説明する。

（１）本発明の適用対象に関する補足として、次がある。

作業対象は、通信設備を例としたが、所定の登録画像が得られ、且つ、手順総数に該当する情報、すなわち、インデックス付与部5におけるクラスタ数が得られるのであれば、通信設備に限らないその他の任意の装置・機器などを対象とした作業の際の一人称映像にも、本発明は適用可能である。

また、本発明はより一般には、所定の注視対象が存在して、そのいずれかの箇所を、各箇所に対応する視点配置においてそれぞれ、ある程度の時間継続して眺めることが予め想定される一人称映像、すなわち、所定の注視対象を捉えており、その注視箇所及び視点位置の平均が断続的に変わる一人称映像を、自動で区間分けすることに利用可能である。この場合、所定の注視対象の登録画像と、区間数と、をユーザ側にて予め用意した後、映像管理装置10が自動で区分けを実施する。

さらに、インデックス付与部5において、x-means等のクラスタ数を与える必要のないクラスタリングを用いれば、作業手順数などの形でクラスタ数を与えなくとも、本発明は実施可能である。例えば、野球やサッカーを客席から観戦している際の、スポーツ観戦客としての一人称映像の区間分けなどにも、本発明は適用可能である。この場合、野球場やサッカー場のグランド（及びその周辺設備など）を、登録画像として用意する。そして、観客席を移動し、及び／又は、グランド上で注視する箇所が変化すれば、異なる区間が得られることとなる。なお、動き回る選手等は登録画像には利用できない。

ただし、本発明の説明例として用いた作業の記録映像の場合は、作業手順書に即して実施されるという性質などを考慮すると、クラスタ数を与えることが好ましい。

（２）検出部3にて局所特徴量を算出する構成に関する補足として、当該構成の利点に関して、次がある。

図１に示した各部31, 32, 33を備える構成により局所特徴量を算出する代わりに、より単純な構成として、登録画像全体（設定している場合は、基準領域全体）をテンプレートとするテンプレートマッチングを適用し、時点iのフレームiにおいて一致した位置によって、注視及び視点に関する測定量に相当するものを定めるようにすることも可能である。しかしながら、各部31, 32, 33を備える構成の利点として、以下がある。

第一に、注視及び視点の両者について、客観的数値として時系列で測定、分類し、作業箇所および各手順を推測できるようになる。第二に、単純なテンプレートマッチングで直接画像同士を比較するのではなく、局所特徴量に変換することによって、回転やスケール変化、オクルージョンの影響を抑制した注視測定を可能としている。これは、記録映像内に撮影される対象設備の見た目が大きくなっても、傾いていても、認識できることを意味し、作業者はこれらの変動を意識せずに作業中の映像を記録すれば良く、作業に集中できるようになる。

（３）局所特徴量前段記述部22にて特徴量記述子にORB又はFernsを利用する場合についての補足として、次がある。

ORBおよびFerns自体は直接的にはスケール非依存の特徴量記述子を生成しないため、キーポイント前段検出部21と組み合わせることでスケール不変性を実現する。すなわち、例えば、キーポイント前段検出部21がSIFTにて実現されている場合、各キーポイントが検出された際に得られるスケール値に応じてフレーム画像を縮小し、拡大縮小画像上でキーポイント周辺の局所領域に含まれる画像信号を特徴量記述子に変換する。また、例えば、キーポイント前段検出部21がFASTにて実現されている場合、フレーム画像を多段階に縮小してキーポイントを検出するが、各キーポイントが検出された解像度の画像上で、キーポイント周辺の規定範囲に含まれる画像信号を特徴量記述子に変換する。

以上、局所特徴量前段記述部22及びキーポイント前段検出部21に関して説明したが、同一の処理がなされる局所特徴量記述部32及びキーポイント検出部31に関しても同様である。

（４）射影行列推定部34の算出する射影行列に関する補足として、次がある。

射影行列は2枚の画像間で対応する点の座標を関係付ける。ラックにマウントされたサーバ等、作業対象となる設備の前面には起伏が少なく、ほぼ平面と見なせる場合も多い。この場合、局所特徴量対応比較部33にて対応付けられる局所特徴量ペア群と、この代わりにテンプレートマッチング部43にて探索されるパッチ画像群から得られる複数組の対となる座標ペア群と、は共に、対象設備の前面の同一平面上に存在することとなる。

このように、2枚の画像間の対応する点が同一平面上にある場合、射影行列はホモグラフィ行列となり、公知手法で算出可能である。なおここで、対応付けられた局所特徴量および探索されたパッチ画像は、それぞれ、原理上最低4組以上あることが前提となる。

一方、対象設備の前面に起伏があり、平面と見なせない場合も、当該局所特徴量ペア群及びパッチ画像群から得られる座標ペア群と、のいずれかに関して、8組以上あれば、実空間上の点を各画像上の座標系に変換するための透視投影行列が、登録画像および現時刻のフレーム画像のそれぞれに対して求まるため、これらの透視投影行列を組み合わせることによって、登録画像の点を現時刻のフレーム画像上の座標系へ変換するための射影行列が算出可能である。

ただし、当該透視投影行列を算出する場合は、図２のステップS1にてユーザ側で予め用意する情報に追加が必要となる。すなわち、実空間における点の空間座標値と、所定配置で当該点を撮影した際の局所特徴量と、が必要となる。ここで、空間座標値を与える点は、局所特徴量となりうるような点を予め選別しておかねばならない。当該追加情報は、登録画像における追加情報として、局所特徴量にさらに空間座標値を与える形で用意してもよい。

なお、局所特徴量対応比較部33及びテンプレートマッチング部43のそれぞれにて、算出結果を適切としてよいかの判定（図７のフローの分岐ステップであるステップS13及びS22における判定）は、前述のように対応付けられた局所特徴量および探索されたパッチ画像の数に対するしきい値により判定した。しかし、これらのしきい値が上記ホモグラフィ行列の算出に必要な最低数4や透視投影行列の算出に必要な最低数8に限定されるものではない。各行列を算出可能な範囲において、任意のしきい値に設定してよい。

（５）検出部3と追跡部4との切り替えに関する補足として、図７で説明した実施形態以外の実施形態も可能であり、次の通りである。

一実施形態では、一度ステップS13からステップS21へと移ったのち、さらにステップS23へと進むことで、直近の過去フレームi-1に対しては検出部3で対応座標群を求め、現時点iにおいて追跡部4が対応座標群を求めるようになった場合は、それ以降の時点i+1, i+2, i+3, ...も原則として、検出部3ではなく追跡部4が対応座標群を求めることを継続させるようにしてもよい。従って、当該継続している間は、検出部3の側での対応座標群の算出は試みられないので、計算負荷が低減される。

そして、当該継続した後に、追跡部4による対応座標群の算出が精度不足であると判定された時点i+kで、あるいはその直後の時点i+k+1で、検出部3による対応座標群の算出に戻るようにしてもよい。当該判定は、図７のステップS22と同様にすればよい。

一実施形態では、対応座標群の算出に関して、検出部3での算出は、所定周期Mを定めたうえで、当該M回に1回のみ算出がなされるようにして、残りのM-1回は、追跡部4にて算出を行うようにしてもよい。当該M-1回の途中で、追跡部4による算出が、図７のステップS22と同様にして精度不足であると判定された場合、その時点で検出部3による算出に切り替えてから、再度、周期Mで同様に実施するようにしてもよい。

一実施形態では、追跡部4の利用は行わず、常に検出部3のみで対応座標群の算出を試みるようにしてもよい。

（６）インデックス付与部5によるクラスタリングの際のクラスタ数を決定するため、ユーザ側より与える手順総数についての補足として、次がある。

「手順」としては異なるが、作業者の注視及び視点が変化しないことが明らかな、2つ以上の連続した「手順」は、当該クラスタリングの際の「手順総数」のカウントにおいては、１つとしてカウントしたうえで、手順総数を与える必要がある。例えば、手順1が「モジュールCのスイッチdをオンする」で、続く手順2が「モジュールCのスイッチeをオフにする」であり、当該スイッチd及びeが互いに隣接する、あるいは、1つの小さなパネル内に配置されているような場合、当該手順1及び2は1つであるとしてカウントする。

当該補足に関連して、本発明においては特に、次のような効果がある。すなわち、作業などの記録映像を対象とする場合、ユーザは登録画像を用意のうえでこのような「手順総数」を与えさえすれば、映像管理装置10によって自動で区間分けが可能であり、それ以上の手間は不要である。例えば、手順の詳細（具体的にどのような手順内容であるか、また、機器においてどの座標位置にどのようなモジュール等が存在して、各手順の対象となっているか等）を、事前の設定情報としてユーザが映像管理装置10に入力する等の煩雑な作業は不要である。

（７）本発明は、コンピュータに読み取られ実行されることで、当該コンピュータを映像管理装置10として機能させる、あるいは、映像管理装置10の各部に対応するステップを実行させる、プログラムとして提供することもできる。

10…映像管理装置、1…フレームキャプチャ部、2…記憶部、20…登録部、3…検出部、4…追跡部、5…インデックス付与部、21…キーポイント前段検出部、22…局所特徴量前段記述部、31…キーポイント検出部、32…局所特徴量記述部、33…局所特徴量対応比較部、34…射影行列推定部、35…注視・視点測定部、41…パッチ画像生成部、42…探索範囲決定部、43…テンプレートマッチング部

Claims

所定の注視対象を捉えており、その注視箇所及び視点位置の平均が断続的に変わる一人称映像を、区間に分ける映像管理装置であって、
前記一人称映像の各フレームより局所特徴量を検出し、前記所定の注視対象を所定配置で撮影した登録画像より抽出された局所特徴量と比較することで、当該各フレームにおける注視及び視点に関する測定量を算出する検出部と、
前記算出された注視及び視点に関する測定量に基づいてクラスタリングを行い、各フレームに当該クラスタリング結果に応じたインデックスを付与することで、前記一人称映像を、当該各インデックスに応じた区間へと分けるインデックス付与部と、を備えることを特徴とする映像管理装置。
前記検出部が、
各フレームより、回転及びスケール変化に対して頑強な点をキーポイントとして検出するキーポイント検出部と、
前記検出されたキーポイントの周辺の局所領域に含まれる画像信号を、回転及びスケール変化に対して頑強な特徴量記述子へと変換すると共に、当該特徴量記述子とそのキーポイントの座標とをセットで局所特徴量となす局所特徴量記述部と、
当該フレームより得られた局所特徴量と、前記登録画像より抽出された局所特徴量と、を比較して、一致すると判定されるもの同士をペアとなす局所特徴量対応比較部と、
前記ペアとされた局所特徴量における座標同士の対応関係として、前記登録画像の座標系を当該フレームの座標系へと変換する射影行列を算出する射影行列推定部と、
前記算出された射影行列に基づいて、当該フレームにおける注視及び視点に関する測定量を算出する注視・視点測定部と、を含むことを特徴とする請求項１に記載の映像管理装置。
パッチ画像生成部、探索範囲決定部及びテンプレートマッチング部を含む追跡部をさらに備え、
前記パッチ画像生成部は、前時刻において前記算出された射影行列を前記登録画像に適用して変形し、当該変形された登録画像における局所特徴量の座標の周辺の局所領域をパッチ画像として生成し、
前記探索範囲決定部は、現時刻のフレームにおいて、前記変形された登録画像における局所特徴量の座標の周辺の所定領域を、探索範囲として決定し、
前記テンプレートマッチング部は、現時刻のフレーム内にて前記決定された探索範囲を対象として、対応する前記生成されたパッチ画像をテンプレートとしてテンプレートマッチングの探索を実施し、探索結果の位置座標を求め、
前記射影行列推定部は、前記登録画像の座標系を当該フレームの座標系へと変換する射影行列を算出するに際して、前記局所特徴量対応比較部によりペアとされた局所特徴量における座標同士の第一の対応関係と、前記テンプレートマッチング部による探索結果で得られる座標同士の第二の対応関係と、のいずれかを用いることを特徴とする請求項２に記載の映像管理装置。
前記射影行列推定部は、前記局所特徴量対応比較部によりペアとされた局所特徴量における当該ペアの数が所定閾値を超える場合には、前記第一の対応関係を用い、超えない場合には、前記第二の対応関係を用いることを特徴とする請求項３に記載の映像管理装置。
前記注視・視点測定部は、前記算出された射影行列に基づいて、当該フレームにおける前記登録画像の領域の面積及び／又は重心を求め、当該面積及び／又は重心によって注視及び視点に関する測定量を算出することを特徴とする請求項２ないし４のいずれかに記載の映像管理装置。
前記インデックス付与部は、前記算出された注視及び視点に関する測定量と、フレーム番号と、に基づいてクラスタリングを行うことを特徴とする請求項１ないし５のいずれかに記載の映像管理装置。
前記検出部にて前記比較される、前記所定の注視対象を所定配置で撮影した登録画像より抽出された局所特徴量が、当該登録画像のうち、所定の基準領域のみから抽出されていることを特徴とする請求項１ないし６のいずれかに記載の映像管理装置。
前記所定の基準領域が矩形で与えられていることを特徴とする請求項７に記載の映像管理装置。
前記所定の注視対象は所定の機器であり、前記一人称映像は、当該機器を対象として作業を行う際の映像であることを特徴とする請求項１ないし８のいずれかに記載の映像管理装置。
前記インデックス付与部が、前記作業の所定の手順数に等しい数の区間へと分けることを特徴とする請求項９に記載の映像管理装置。
前記インデックス付与部が、前記作業の所定の手順数に等しい数の区間へと分け、且つ、当該区間に分ける箇所を、前記作業の所定の手順の各々についての所定の平均所要時間から定まる所定範囲内より決定することを特徴とする請求項１０に記載の映像管理装置。
コンピュータを請求項１ないし１１のいずれかに記載の映像管理装置として機能させることを特徴とするプログラム。