JP7468653B2

JP7468653B2 - 処理システム及び処理方法

Info

Publication number: JP7468653B2
Application number: JP2022532899A
Authority: JP
Inventors: 遥久保田; 明片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-04-16
Anticipated expiration: 2040-06-30
Also published as: JPWO2022003842A1; WO2022003842A1

Description

本発明は、処理システム及び処理方法に関する。

従来、撮影者の視点の映像は、撮影者が見たり聞いたりした情報を正確に記録可能であり、個人や事業を問わず様々な分野で活用可能であることが知られている。例えば、工事等の作業を行うにあたって、作業者の視点で撮影した動画映像を作業ログとして用いることで、作業のマニュアル化、業務分析、作業証跡等に活用可能である。このような活用にあたっては、映像から特定の場面（シーン）のみを抽出したいケースが多いが、目視での抽出作業は手間がかかり非効率である。

ここで、映像から特定の場面のみを抽出するため、各映像シーンの識別にセンサやタグ、画像マーカーを用いることも考えられるが、事前準備が必要であり、手間がかかる。そこで、上記のような事前準備を行わずに、映像から特定の場面のみを抽出する技術として、映像の特徴量を元に人や物体を識別し、近接学（proxemics）等により抽象化した人や物体間の関係性の遷移を元に、映像から特定の場面を自動検出する技術がある。

胡晟、劉健全、西村祥治「大量な映像における高速な動的場面検索」情報処理学会研究報告 2017/11/8

しかし、上記の技術で、映像から、当該映像の撮影者が特定の行動を行っている場面を検出しようとする場合、映像には撮影者自身は基本的に映らず、また、映像から撮影者の行動を特定するためには複雑なパラメータ設定が必要なため、検出が困難であるという問題がある。そこで、本発明は、前記した問題を解決し、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることを課題とする。

前記した課題を解決するため、本発明は、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、を備えることを特徴とする。

本発明によれば、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることができる。

図１Ａは、各実施形態の処理システムの概要を説明するための図である。図１Ｂは、第１の実施形態の処理システムの概要を説明するための図である。図１Ｃは、検出条件に設定する単体的行動の組み合わせの選択画面の例を示す図である。図１Ｄは、検出条件に設定する単体的行動の組み合わせの設定の処理手順の例を示すフローチャートである。図２は、第１の実施形態の処理システムの構成例を示す図である。図３は、第１の実施形態の処理システムによる入力データ（映像）の処理手順の例を示すフローチャートである。図４は、第１の実施形態の処理システムが、ユーザから選択された行動要素の組み合わせにより行動検出を行う際の処理手順の例を示すフローチャートである。図５は、第２の実施形態の処理システムの概要を説明するための図である。図６は、第３の実施形態の処理システムの概要を説明するための図である。図７は、第３の実施形態の処理システムの構成例を示す図である。図８は、第３の実施形態の処理システムによる入力データ（映像）の初期処理の処理手順の例を示すフローチャートである。図９は、第３の実施形態の処理システムが、撮影者がある特定の対象物（特定対象）を視認したことを検出する際の処理手順の例を示すフローチャートである。図１０は、その他の実施形態の処理システムの概要を説明するための図である。図１１は、処理プログラムを実行するコンピュータの例を示す図である。

以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に説明する各実施形態に限定されない。なお、以下では、処理システムは、撮影者（例えば、作業者）により撮影された映像に基づき、当該撮影者の行動を判定し、当該撮影者が所定の行動を行った場面を検出する場合を例に説明する。

処理システムは、映像の撮影者の位置および視点の時間的変化に基づき単純な行動（以下、単体的行動と称す）を判定し、判定した単体的行動の組み合わせにより撮影者の行動を判定する。

まず、図１Ａを参照しながら、各実施形態の処理システムの概要を説明する。例えば、図１Ａに示すように、作業者（映像の撮影者）の行動は、作業者の移動に関する分類と、当該作業者の視点の動きに関する分類とを組み合わせることで表現できる。よって、処理システムは、上記の作業者の移動に関する分類と、当該作業者の視点の動きに関する分類との組み合わせを条件として用いることで、作業者の様々な行動を判定できる。

例えば、映像中で作業者が停留し、注視した状態であれば、処理システムは、作業者が端末操作等の注視をしていると分類（判定）できる。また、映像中で作業者が停留し、視点が見渡すような動きをしていれば、処理システムは、作業者が目視点検等をしていると判定できる。また、映像中で作業者が移動し、わき見移動をしていれば、処理システムは、作業者が広範囲の点検等をしていると判定できる。

処理システムは、上記のように階層的な作業者行動のモデルを用いて行動の判定を行う。これにより、処理システムは、ユーザにより選択された、行動の構成要素（各階層における行動）の組み合わせにより、作業者が行った様々な行動の場面を検出することができる。

例えば、処理システムは、作業者（映像の撮影者）の位置および視点それぞれについて移動量や回転量等に基づき上記の単体的行動に分類しておく。そして、ユーザはそれらの単体的行動を組み合せる、または単体的行動のパラメータの閾値をカスタマイズすることで、映像から作業者の所定の行動を検出するための条件（検出条件）を設定する。そして、処理システムは、上記の設定された検出条件に基づき、映像から作業者の様々な行動の場面の検出を行う。なお、検出条件を設定する際、処理システムは、作業者の個人差を考慮し、同じ行動に単体的行動の組み合せパターンを複数個登録してもよい。このようにすることで、処理システムは、作業者の個人差を考慮した上で、映像から当該作業者が行った行動の場面を検出することができる。

[第１の実施形態]
次に、第１の実施形態の処理システムを説明する。第１の実施形態の処理システムは、映像内で撮影者が所定の行動を行った場面を、撮影者の位置および視点の時間的変化により判定される単体的行動の組み合せによって検出する。なお、位置および視点の時間的変化は、例えば、位置および視点の時間あたりの移動量、回転量等である。

図１Ｂを用いて、第１の実施形態の処理システムの概要を説明する。例えば、処理システムのユーザは、検出したい撮影者の行動の構成要素（単体的行動）を選択、または、事前に設定された組み合わせをラベルで選択する。

例えば、ユーザは、「注視」という行動を検出するための検出条件として、位置「停留」×視点「固定」という組み合わせを設定する。また、ユーザは、「見渡し」という行動を検出するため検出条件として、位置「停留」×視点「往復」というの組み合わせを設定する。さらに、ユーザは、「移動」という行動を検出するため検出条件として、位置「移動」×視点「固定」という組み合わせを設定する。その後、処理システムは、上記の検出条件に基づき、映像から、撮影者が「注視」を行った場面、「見渡し」を行った場面、「移動」を行った場面を検出する。そして、処理システムは、これらの検出結果をユーザに表示する。

上記の検出条件に設定する単体的行動の組み合わせの選択例について、図１Ｃを用いて説明する。例えば、処理システムは、単体的行動のうち、同じ観点の行動をグルーピングしておく。例えば、移動に関する選択肢として、停留、移動等をグルーピングしておく。また、ここでは図示を省略しているが、例えば、視点に関する選択肢として、注視、見渡す、わき見移動等をグルーピングしておく。

なお、同じグループ内の単体的行動は、互いに排他的な関係になっていることが好ましい。これは、ユーザが、グループ内からある行動を検出するために単体的行動を選択しやすくするためである。また、また単体的行動それぞれが排他的な関係になっているか否かは、例えば、移動に関する単体的行動であれば、位置の移動量に基づき判断され、視点に関する単体的行動であれば、視点の回転量等により判断される。

例えば、処理システムは、図１Ｃに示すように、移動に関する選択肢（単体的行動群）と、視点に関する選択肢（単体的行動群）とを表示する。そして、ユーザは、表示された選択肢のグループから、行動検出に用いる単体的行動の組み合わせを選択する。例えば、ユーザは、表示された移動の選択肢のグループから、移動に関する単体的行動を選択する。また、ユーザは、表示された視点の選択肢のグループから、視点に関する単体的行動を選択する。そして、処理システムは、選択されたこれらの単体的行動の組み合わせを検出条件として設定する。

例えば、図１Ｄに示すように、処理システムは、ユーザから、抽出したい行動名（例えば、「移動」等）の入力を受け付けると（Ｓ２１１）、条件格納部１５（後記）に登録された行動ラベルを、排他的なもの同士をグルーピングして表示する（Ｓ２１２）。例えば、処理システムが、「移動」という行動名の入力を受け付けると、「移動」に関する行動である、「移動」、「停留」等の行動ラベルをグルーピングして表示する。

Ｓ２１２の後、処理システムは、ユーザから行動ラベルの選択と、選択された行動ラベル間の関係性（例えば、論理和をとるか、論理積をとるか、時系列とするか等）の入力を受け付けると、入力された情報に基づき検出条件を構築する（Ｓ２１３：ラベルの選択とラベル間の関係性との入力を受け付け、新規条件を構築）。

例えば、行動名「移動」を検出するための単体的行動の組み合わせとして、ユーザから、「移動」に関する単体的行動から「移動」が選択され、「視点」に関する単体的行動から「固定」が選択され、これらの行動の関係性として「論理積」が入力されると、処理システムは、これらの情報をもとに行動名「移動」を検出するための検出条件として「位置：移動」×「視点：固定」を構築する（図１Ｂ参照）。そして、処理システムは、構築した検出条件を条件格納部１５に格納する。

その後、処理システムは、上記の検出条件に基づき、映像からの場面検出を行う。例えば、処理システムは、図１Ｂに示すように、映像から、行動名「移動」の場面として、撮影者の位置が移動し、かつ、視点が固定している場面を検出する。

なお、ユーザが、撮影者や撮影環境に合わせて検出条件を調整したい場合、検出条件に設定される各単体的行動のパラメータの値を調整してもよい。例えば、ユーザは、高齢で移動がゆっくりの撮影者については、上記の検出条件に設定される撮影者の移動の速度条件を緩和する等の調整を行ってもよい。また、処理システムは、ユーザの用途に応じて前記したラベルの細分化やグルーピングを行ってもよい。さらに、処理システムは、撮影者の位置と視線の時間的変化から判定される行動を複数組み合わせ、順序性等の条件を設けることでより上位の行動を判定するようにしてもよい。

[構成例]
次に、図２を用いて処理システム１０の構成例を説明する。処理システム１０は、生データ格納部（取得部）１１と、情報抽出部１２と、データ処理部１３と、ＵＩ（ユーザインタフェース）部１４と、条件格納部１５と、処理データ格納部１６とを備える。

なお、処理システム１０は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等の電子回路や、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路を備える。また、処理システム１０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、処理システム１０は、各種のプログラムを実行することにより上記の各部の機能を実現する。さらに、生データ格納部１１、条件格納部１５、処理データ格納部１６は、処理システム１０の備える記憶装置（記憶部）と、プログラムの実行処理とにより実現される。

生データ格納部１１は、撮影者が撮影した映像（映像情報）を格納する。例えば、生データ格納部１１は、外部から取得した映像を格納する。情報抽出部１２は、映像から、撮影者の位置情報、撮影者の視点情報等の抽出を行う。例えば、情報抽出部１２は、生データ格納部１１に格納される映像から、撮影者の位置情報、撮影者の視点情報を抽出する。そして、情報抽出部１２は、映像から抽出した撮影者の位置情報、撮影者の視点情報を生データ格納部１１に出力する。生データ格納部１１は、映像と当該映像から抽出された撮影者の位置情報、撮影者の視点情報と格納する。

データ処理部１３は、生データ格納部１１から、映像と当該映像の撮影者の位置情報および視点情報とを取得する。そして、データ処理部１３は、取得した映像と当該映像の撮影者の位置情報および視点情報と、条件格納部１５に格納される検出条件とを用いて、当該映像から撮影者が当該検出条件に示される行動を行った場面を検出する。そして、データ処理部１３は、検出の結果（検出結果）を、処理データ格納部１６に出力する。

ＵＩ部１４は、ユーザから各種設定を受け付けたり、ユーザに各種情報を表示したりするためのインタフェースを提供する。ＵＩ部１４は、条件設定部１４１と、可視化情報表示部１４２と、映像表示部１４３とを備える。

条件設定部１４１は、ユーザから、撮影者の行動の検出条件の構成要素（上記の単体的行動）の選択入力を受け付けると、選択された単体的行動の組み合わせを、当該行動の検出条件に設定する。そして、条件設定部１４１は、設定後の検出条件を条件格納部１５に格納する。

例えば、条件設定部１４１は、ユーザから検出条件の設定要求を受け付けると、条件格納部１５に格納される単体的行動（既存要素）および既存要素の対応関係を示す情報をユーザに提示（表示）する。なお、上記の既存要素の対応関係を示す情報は、例えば、互いに排他的な関係にある１以上の単体的行動をグルーピングした情報である。その後、条件設定部１４１は、撮影者の行動を検出するための単体的行動の組み合わせの選択入力と、当該組み合わせに対するラベル付けの入力を受け付けると、受け付けた内容を、検出条件（新規要素）に設定し、設定後の検出条件を条件格納部１５に格納する。

可視化情報表示部１４２は、ユーザに対し可視化情報を表示する。例えば、可視化情報表示部１４２は、処理データ格納部１６に格納される検出結果の可視化情報を表示する。この可視化情報は、例えば、検出条件に示される各行動を行った場面の検出結果を、タイムライン上に表示した情報である（図１Ｂに例示する検出結果参照）。また、可視化情報表示部１４２は、上記の可視化情報上でユーザから映像再生場面の指定を受け付けてもよい。可視化情報表示部１４２は、映像再生場面の指定を受け付けた場合、指定された映像再生場面を再生範囲として映像表示部１４３に出力する。

映像表示部１４３は、指定された範囲の映像を再生し、ユーザに表示する。例えば、映像表示部１４３は、可視化情報表示部１４２から、映像の再生範囲の情報を受け取ると、当該再生範囲の映像を再生し、ユーザに表示する。

条件格納部１５は、検出条件を格納する。この検出条件は、前記したとおり、検出対象となる撮影者の行動を単体的行動の組み合わせで示した情報である。なお、条件格納部１５には、予め、単体的行動について、位置情報、視点情報に基づく当該単体的行動の検出条件および当該単体的行動のラベルが格納されている。

なお、前記したとおり、検出条件に含まれる単体的行動のパラメータの値（例えば、位置情報や視点それぞれの移動量または回転量の時間的変化の値）は、ユーザの指示入力により適宜変更可能である。例えば、撮影者が高齢で移動がゆっくりである場合、検出条件における移動の速度条件を緩やかにする等の変更を行うことで、データ処理部１３は、より精度よく場面検出を行うことができる。なお、上記の移動量は、例えば、移動距離のみならず移動の方向に関する情報も含んでいてもよい。移動量が移動の方向に関する情報を含む場合、移動量は、例えば、ベクトル等で表される。検出条件が、上記の移動の方向に関する情報を含むことで、データ処理部１３は、わき見移動等、移動の方向の差により表現される行動を検出したり、見渡し等、往復の動きを用いた行動を検出したりすることができる。

また、検出条件は、撮影者が行う行動の順序（例えば、注視→見渡し→移動等）に関する条件を含んでいてもよい。検出条件が上記の条件を含むことで、データ処理部１３は、撮影者が行った一連の行動について、指定された順序で行った場面を検出することができる。

処理データ格納部１６は、データ処理部１３による検出結果を格納する。

[処理手順]
次に、図３を用いて、処理システム１０による入力データ（映像）の処理手順の例を説明する。

まず、処理システム１０は、撮影者が撮影した映像情報（映像）を取得し、生データ格納部１１に格納する（Ｓ１１：映像情報の取得）。そして、処理システム１０は、生データ格納部１１のデータまたは条件格納部１５の検出条件に更新有りと判定した場合（Ｓ１２でＹｅｓ）、Ｓ１３へ進む。なお、処理システム１０が、生データ格納部１１内のデータにも、条件格納部１５内の検出条件にも、更新無しと判定した場合（Ｓ１２でＮｏ）、Ｓ１２に戻る。

Ｓ１３において、処理システム１０が、処理システム１０内で映像から情報抽出（例えば、撮影者の位置情報、視点情報の抽出）を行うと判断した場合（Ｓ１３でＹｅｓ）、情報抽出部１２は、映像からの情報抽出を実施する（Ｓ１４）。例えば、情報抽出部１２は、地図情報と撮影者の位置情報とをSLAM（Simultaneous Localization and Mapping）によって抽出する。Ｓ１４の後、情報抽出部１２は、抽出した情報を抽出元の映像と対応付けて生データ格納部１１に格納し、Ｓ１５へ進む。一方、処理システム１０が処理システム１０内で映像から情報抽出を行わないと判断した場合（Ｓ１３でＮｏ）、Ｓ１４の処理をスキップし、Ｓ１５へ進む。

Ｓ１５において、データ処理部１３は、条件格納部１５に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部１５は、格納された検出条件をデータ処理部１３に渡す（Ｓ１６）。

Ｓ１６の後、データ処理部１３は、各行動要素について、条件（Ｓ１６で渡された検出条件）に基づき映像内の該当場面を検出する（Ｓ１７）。そして、データ処理部１３は、処理データ格納部１６に各行動要素の検出結果を格納する（Ｓ１８）。

次に、図４を用いて、処理システム１０が、ユーザから選択された行動要素（単体的行動）の組み合わせにより行動検出を行う際の処理手順の例を説明する。

まず、処理システム１０の条件設定部１４１は、ユーザから、映像から抽出したい行動のラベルの設定を受け付ける（Ｓ２１）。そして、条件設定部１４１は、当該行動の検出条件となりうる行動要素を条件格納部１５に登録済みの行動要素から表示し、その中から当該行動の検出条件となる行動要素の選択を受け付ける（Ｓ２２：当該行動の検出条件となり得る行動要素を登録済みの行動要素の中から選択）。

なお、Ｓ２２において、条件設定部１４１が、当該行動の検出条件となりうる行動要素が未登録であると判断した場合、ユーザは必要な行動要素を入力し、登録するようにしてもよい。また、このとき条件設定部１４１は、必要に応じ、ユーザから、行動の検出条件の調整を受け付け、条件格納部１５内における当該行動の検出条件に反映させてもよい。

Ｓ２２の後、条件設定部１４１は、Ｓ２２で選択された行動要素を当該行動の検出条件として設定し、条件格納部１５に登録する（Ｓ２３：追加・更新された行動要素を登録）。

Ｓ２３の後、データ処理部１３は、条件設定部１４１で追加・更新された行動要素を映像内から検出し（Ｓ２４）、Ｓ２４における検出結果を処理データ格納部１６に格納する（Ｓ２５）。その後、可視化情報表示部１４２は、処理データ格納部１６に格納された検出結果を可視化情報として表示する（Ｓ２６：検出結果を可視化表示）。

このような処理システム１０によれば、ユーザは、撮影者の単体的行動の組み合わせにより、映像から撮影者の行動を検出するための検出条件を設定することができる。その結果、映像から、当該映像の撮影者が特定の行動を行っている場面を検索しやすくなる。

[第２の実施形態]
次に、図５を用いて、本発明の第２の実施形態を説明する。第２の実施形態の処理システム１０は、映像内から撮影者が所定の行動を行っている場面を除外することを特徴とする。

例えば、処理システム１０は、図５に示すように、ユーザから「映像から作業場所間の移動中の場面をカット」という指示入力を受け付けた場合、当該指示入力に基づき、映像から、撮影者の行動が「作業場所間の移動」である場面をカットまたは非表示とする。

例えば、処理システム１０に条件設定部１４１が、上記のカット（除外）の対象となる撮影者の行動の選択入力を受け付けると、当該行動をカット場面の検出条件として条件格納部１５に格納する。その後、データ処理部１３は、条件格納部１５に格納されたカット場面の検出条件を用いて、撮影者が、上記のカット場面の検出条件に示される行動を行った場面をカットする。

例えば、上記のカット場面の検出条件として、位置が「移動」であり、撮影者の移動速度が「ａ」を超え、その継続時間が「ｂ」を超える場面をカットする旨の条件が設定されている場合を考える。この場合、データ処理部１３は、上記の検出条件に基づき、撮影者の移動速度が「ａ」を超える状態での継続時間が「ｂ」を超える場面を検出すると、当該場面をカットして、処理データ格納部１６に格納する。その後、例えば、映像表示部１４３は、カットされた場面を除外した映像を表示する。このような処理システム１０によれば、映像内からユーザの視聴目的外の場面を除外することができるので、ユーザは、ユーザの視聴目的に合った映像のみを視聴することができる。なお、上記のようにして映像から除外された場面は、例えば、ユーザ操作により復元可能としてもよい。

[第３の実施形態]
次に、本発明の第３の実施形態を説明する。第３の実施形態の処理システムは、撮影者がある対象を映した場面の中から、当該撮影者が特定の行動を行った場面を絞り込む。

例えば、図６に示すように、第３の実施形態の処理システムは、場面の検出条件として、撮影者が撮影時にある対象を捉えたか（カメラで捉えたか）という条件と、撮影者の行った行動がどのような行動かという条件とを組み合わせる。これにより処理システムは、映像において、撮影者がある対象にどのような行動を行ったかを判定できるので、撮影者がある対象に特定の行動を行った場面を絞り込むことができる。

なお、撮影者が、ある対象物をカメラで捉えたか（視認したか）否かは、映像内におけるオブジェクトの検出、または、撮影位置および視点方向を用いたカメラの画角等から判定することができる。また、撮影者が対象物を意識的に見たか否かは、対象物までの距離や、撮影者が当該対象物をどの程度正面の位置から捉えたか等から判定することができる。

処理システムが、撮影者の行動に加え、撮影者が視認する対象物の位置による絞り込みを併用することで、撮影者の位置情報および視線情報のみからより具体的な行動の判定が可能となる。ここで、処理システムは、対象物の位置（対象位置）を検出条件に設定するため、例えば、映像内の各場面における位置情報が紐づいた地図情報を利用する。なお、地図情報の取得方法は、例えば、外部から座標に対応する地図を読み込む方法や、SLAM等により同期された位置情報と地図情報とを取得する方法等がある。

図７を用いて、第３の実施形態の処理システムである処理システム１０ａの構成例を説明する。前記した実施形態と同じ構成は同じ符号を付して説明を略す。

図７に示すように、処理システム１０ａの情報抽出部１２は、映像から位置情報、視点情報、地図情報を抽出する。そして、情報抽出部１２は、映像と当該映像から抽出された位置情報、視点情報、地図情報とを生データ格納部１１に格納する。

条件設定部１４１は、ユーザから、検出条件として、視認の対象物との距離および撮影角度の条件の指定を受け付ける。また、条件設定部１４１は、ユーザから、検出対象となる撮影者の行動の選択（検出行動の選択）を受け付ける。例えば、条件設定部１４１は、条件格納部１５に格納される既存要素（行動要素）をユーザに提示し、ユーザから検出行動の選択を受け付ける。その後、条件設定部１４１は、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とを検出条件に設定する。そして、条件設定部１４１は、設定後の検出条件（新規要素）を、条件格納部１５に格納する。

また、可視化情報表示部１４２は、生データ格納部１１に格納された地図情報に基づき、ユーザに地図を表示する。そして、可視化情報表示部１４２は、地図上からの視認の対象物の位置の指定（対象位置指定）を受け付けると、指定された位置（対象位置）を条件設定部１４１に受け渡す。その後、条件設定部１４１は、指定された対象位置を、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とが設定された検出条件に追加し、条件格納部１５に格納する。

データ処理部１３は、条件格納部１５に格納された検出条件に基づき、場面検出を行う。例えば、データ処理部１３は、映像から、撮影者が検出条件に設定された角度・距離で当該検出条件に設定された対象物を視認し、かつ、当該検出条件に設定された行動を行った場面を検出する。

[処理手順]
次に、図８を用いて、処理システム１０аによる入力データ（映像）の初期処理の処理手順の例を説明する。

まず、処理システム１０аは、撮影者が撮影した映像情報（映像）を取得し、生データ格納部１１に格納する（Ｓ３１：映像情報の取得）。そして、処理システム１０аが処理システム１０内で映像から情報抽出（例えば、撮影者の位置情報、視点情報、地図情報の抽出）を行う場合（Ｓ３２でＹｅｓ）、情報抽出部１２は、映像からの情報抽出を実施する（Ｓ３３）。例えば、情報抽出部１２は、位置情報と地図情報をSLAM等によって取得する。一方、処理システム１０が処理システム１０内で映像から情報抽出を行わない場合（Ｓ３２でＮｏ）、Ｓ３３の処理をスキップし、Ｓ３４へ進む。

Ｓ３４において、データ処理部１３は、条件格納部１５に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部１５は、格納された検出条件をデータ処理部１３に渡す（Ｓ３５）。

Ｓ３５の後、データ処理部１３は、各行動要素について、条件（Ｓ３５で渡された検出条件）に基づき映像内の該当場面を検出する（Ｓ３６）。例えば、データ処理部１３は、検出条件に示される各行動要素に対応する位置情報、視点情報を持つ場面を検出する。その後、データ処理部１３は、処理データ格納部１６に各行動要素の検出結果、および、Ｓ３３で抽出された地図情報、位置情報、視点情報を格納する（Ｓ３７）。

次に、図９を用いて、処理システム１０が、撮影者が特定対象を視認したことを検出する際の処理手順の例を説明する。

まず、処理システム１０の条件設定部１４１は、ユーザから、撮影者が特定対象物を視認したとみなすための距離および撮影角度の条件の指定を受け付ける（Ｓ４１：特定対象に対する角度・距離の条件を指定）。また、条件設定部１４１は、ユーザから、検出対象となる撮影者の行動の指定を受け付ける（Ｓ４２：検出する撮影者の行動を指定）。

Ｓ４２の後、可視化情報表示部１４２は、ユーザから視認の対象物の位置（対象位置）の指定を受け付ける（Ｓ４３：ユーザによる対象位置の指定）。例えば、可視化情報表示部１４２は、処理データ格納部１６に格納された地図情報に基づき、ユーザに地図を表示し、地図上からの視認の対象位置の指定を受け付ける。そして、可視化情報表示部１４２は、ユーザから指定された対象位置を条件設定部１４１に受け渡す。その後、条件設定部１４１は、指定された対象位置を、上記の特定対象に対する角度・距離の条件と撮影者の行動とが設定された検出条件に設定し、条件格納部１５に格納する。

Ｓ４３の後、データ処理部１３は、上記の条件格納部１５に格納された検出条件に基づき場面の検出を行う（Ｓ４４）。すなわち、データ処理部１３は、Ｓ４３で指定された対象位置および設定された条件（検出条件）に基づき、映像から場面を検出する。例えば、データ処理部１３は、映像から、撮影者がＳ４１で指定された角度・距離で、Ｓ４３で指定された対象位置にある対象物を視認し、かつ、Ｓ４２で指定された行動を行ったと判定した場面を検出する。

そして、データ処理部１３は、Ｓ４４における検出結果を処理データ格納部１６に格納する（Ｓ４５）。その後、可視化情報表示部１４２は、地図上に、Ｓ４３で指定された対象位置を表示し、また、Ｓ４５で格納された検出結果を可視化情報として表示する（Ｓ４６：地図上に指定された対象位置を表示し、検出結果を可視化表示）。これにより、処理システム１０ａのユーザは、指定した対象位置を地図上で確認しつつ、映像中、撮影者が当該対象位置の対象物を視認した状態で、指定された行動を行った場面の検出結果を確認することができる。

なお、上記の実施形態において処理システム１０ａは、対象位置の指定を、当該対象に対する角度・距離の条件の指定の後で受け付けることとしたが、これに限定されない。例えば、処理システム１０ａは、対象位置の指定を、当該対象に対する角度・距離の条件の指定を受け付けるときに併せて受け付けてもよい。

[その他の実施形態]
なお、各実施形態の処理システム１０，１０ａは、撮影者の位置情報、視点情報、撮影者が視認した対象物の情報以外の情報を組み合わせて場面の検出を行ってもよい。例えば、処理システム１０，１０ａが、場面を検出する組み合せ要素として、特定の音声や登録オブジェクトの映り込み、映像と同期的に取得したセンサデータの値（例えば、気温等の環境情報や、端末ごとに設置したセンサタグの認識状態）等も検出条件として用いてもよい。このようにすることで、処理システム１０，１０ａによる場面の絞込みの汎用性を強化することができる。

例えば、処理システム１０，１０ａは、図１０に示すように、映像から場面を検出する条件（検出条件）として、撮影者の位置情報、視点情報のほかに、画像認識の結果、音声情報、温度等を用いてもよい。これにより、処理システム１０，１０ａは、映像に特定の対象が映った、警告音が鳴った、装置の熱暴走を検知した等の事象も組み合わせて場面を検出することができる。その結果、処理システム１０，１０ａは、より多彩な組み合わせにより行動検出を行うことができる。

[効果]
以上説明した処理システム１０，１０ａによれば以下のような効果を得ることができる。

（１）任意の行動の表現を簡易化
従来、映像から撮影者が所定の行動を行った場面を検出する際、撮影者の複雑な行動を表現するためには、ユーザが複雑な数値条件を設定する必要であった。一方、処理システム１０，１０ａは、人の行動が階層的であるとみなすことにより、ユーザは単純な行動や移動特性（単体的行動）を組み合せるだけで、検出対象の行動を表現することができる。例えば、人の行動は細分化すると「手を動かす」「視線が動く」等の細かい要素である。よって、処理システム１０，１０ａは、これらの要素を組み合わせた上位の行動として「歩く」「注視する」等の全身での行動を表現することで、「歩く」「注視する」等の行動を検出することができる。さらに、行動を時系列的に繋げることで作業単位等より大きな単位での行動が表現できるので、処理システム１０，１０ａは、行動を時系列的に繋げることで作業単位等、より大きな単位での行動を表現し、検出することができる。

（２）直感的な行動の組み上げ
処理システム１０，１０ａは、基礎的な行動（単体的行動）を同じ観点（位置の移動量、視点の回転量等）に基づくもの同士をグルーピングし、さらにグループ内の各行動が排他的になるように項目を設定する。これにより、ユーザが処理システム１０，１０ａを用いて任意の行動を組み合わせる際に、より直感的に該当する項目を選択しやすくなる。

（３）個人差や環境要因に合わせたカスタマイズの容易性
映像から撮影者が所定の行動を行った場面を検出する際には環境要因や個人差による検出精度のブレが想定される。このため、従来の数値条件を用いた場面検出では、利用シチュエーションに合わせたカスタマイズ等を行うためには全ての数値条件を再度見直す必要があった。一方、処理システム１０，１０ａにおいては、検出条件に設定される撮影者の行動は、単純な行動（単体的行動）の組合せであるため、個人差や環境要因にあわせて必要な行動の数値条件のみ調整することで、利用シチュエーションに合わせたカスタマイズが可能となる。

［実施の形態のシステム構成について］
処理システム１０，１０ａの各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、処理システム１０，１０ａの機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、処理システム１０，１０ａにおいておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、処理システム１０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図１１は、プログラムが実行されることにより、処理システム１０，１０ａが実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、処理システム１０，１０ａの各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、処理システム１０，１０ａにおける機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０処理システム
１１生データ格納部
１２情報抽出部
１３データ処理部
１４ＵＩ部
１５条件格納部
１６処理データ格納部
１４１条件設定部
１４２可視化情報表示部
１４３映像表示部

Claims

撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、
映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、
取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、
を備え、
前記検出条件は、さらに、
前記撮影者が視認する対象物の情報を含み、
前記撮影者が視認する対象物の情報は、
前記撮影者が前記対象物を視認したとみなすための当該対象物との距離および撮影角度の少なくともいずれかと、地図上から指定された当該対象物の位置情報とを含み、
前記データ処理部は、さらに、
前記取得した映像と、前記映像の撮影者の位置情報および視点情報と、前記対象物の位置情報とを用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定し、前記判定の結果を用いて、前記撮影者が前記対象物を視認し、かつ、前記検出条件に示される行動を行った場面を検出し、
前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する際、前記対象物の指定に用いられた地図と、前記取得した映像と、前記映像の撮影者の位置情報および視点情報とを用いて、前記撮影者と前記検出条件に示される対象物との距離および撮影角度の少なくともいずれかを推定し、前記推定の結果を用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する
ことを特徴とする処理システム。
前記撮影者の行動ごとに、当該行動を検出するための前記単体的行動の組み合わせおよび前記単体的行動の関係性の選択入力を受け付け、前記選択入力された、前記行動ごとの当該行動を検出するための単体的行動の組み合わせおよび前記単体的行動の関係性を前記検出条件に設定する条件設定部
をさらに備えることを特徴とする請求項１に記載の処理システム。
前記条件設定部は、さらに、
前記検出条件における前記単体的行動のパラメータ値の調整の入力を受け付け、前記入力に基づき、前記検出条件における前記単体的行動のパラメータ値の調整を行う
ことを特徴とする請求項２に記載の処理システム。
前記記憶部は、さらに、
互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を記憶し、
前記条件設定部は、
前記行動を検出するための前記単体的行動の組み合わせの選択入力を受け付ける際、互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を、前記単体的行動の選択肢として表示する
ことを特徴とする請求項２に記載の処理システム。
前記処理システムは、さらに、
前記撮影者が前記検出条件に示される行動を行った場面の検出結果の可視化情報を表示し、前記表示された可視化情報上から、前記映像の再生場面の選択入力を受け付ける可視化情報表示部と、
前記選択入力された前記映像の再生場面を再生し、表示する映像表示部と、
を備えることを特徴とする請求項１に記載の処理システム。
前記検出条件は、さらに、
前記単体的行動の組み合わせにより、前記映像からの除外対象となる場面を記述した情報を含み、
前記データ処理部は、さらに、
前記映像から前記検出条件に示される除外対象となる場面を除外する
ことを特徴とする請求項１に記載の処理システム。
処理システムにより実行される処理方法であって、
前記処理システムは、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部を有し、
映像と、前記映像の撮影者の位置情報および視点情報とを取得する工程と、
取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出する工程と、
前記検出条件は、さらに、
前記撮影者が視認する対象物の情報を含み、
前記撮影者が視認する対象物の情報は、
前記撮影者が前記対象物を視認したとみなすための当該対象物との距離および撮影角度の少なくともいずれかと、地図上から指定された当該対象物の位置情報とを含み、
前記検出する工程は、さらに、
前記取得した映像と、前記映像の撮影者の位置情報および視点情報と、前記対象物の位置情報とを用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定し、前記判定の結果を用いて、前記撮影者が前記対象物を視認し、かつ、前記検出条件に示される行動を行った場面を検出し、
前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する際、前記対象物の指定に用いられた地図と、前記取得した映像と、前記映像の撮影者の位置情報および視点情報とを用いて、前記撮影者と前記検出条件に示される対象物との距離および撮影角度の少なくともいずれかを推定し、前記推定の結果を用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する
ことを特徴とする処理方法。