JP7468653B2 - 処理システム及び処理方法 - Google Patents

処理システム及び処理方法 Download PDF

Info

Publication number
JP7468653B2
JP7468653B2 JP2022532899A JP2022532899A JP7468653B2 JP 7468653 B2 JP7468653 B2 JP 7468653B2 JP 2022532899 A JP2022532899 A JP 2022532899A JP 2022532899 A JP2022532899 A JP 2022532899A JP 7468653 B2 JP7468653 B2 JP 7468653B2
Authority
JP
Japan
Prior art keywords
photographer
information
video
processing system
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022532899A
Other languages
English (en)
Other versions
JPWO2022003842A1 (ja
Inventor
遥 久保田
明 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022003842A1 publication Critical patent/JPWO2022003842A1/ja
Application granted granted Critical
Publication of JP7468653B2 publication Critical patent/JP7468653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)

Description

本発明は、処理システム及び処理方法に関する。
従来、撮影者の視点の映像は、撮影者が見たり聞いたりした情報を正確に記録可能であり、個人や事業を問わず様々な分野で活用可能であることが知られている。例えば、工事等の作業を行うにあたって、作業者の視点で撮影した動画映像を作業ログとして用いることで、作業のマニュアル化、業務分析、作業証跡等に活用可能である。このような活用にあたっては、映像から特定の場面(シーン)のみを抽出したいケースが多いが、目視での抽出作業は手間がかかり非効率である。
ここで、映像から特定の場面のみを抽出するため、各映像シーンの識別にセンサやタグ、画像マーカーを用いることも考えられるが、事前準備が必要であり、手間がかかる。そこで、上記のような事前準備を行わずに、映像から特定の場面のみを抽出する技術として、映像の特徴量を元に人や物体を識別し、近接学(proxemics)等により抽象化した人や物体間の関係性の遷移を元に、映像から特定の場面を自動検出する技術がある。
胡晟、劉健全、西村祥治 「大量な映像における高速な動的場面検索」 情報処理学会研究報告 2017/11/8
しかし、上記の技術で、映像から、当該映像の撮影者が特定の行動を行っている場面を検出しようとする場合、映像には撮影者自身は基本的に映らず、また、映像から撮影者の行動を特定するためには複雑なパラメータ設定が必要なため、検出が困難であるという問題がある。そこで、本発明は、前記した問題を解決し、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることを課題とする。
前記した課題を解決するため、本発明は、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、を備えることを特徴とする。
本発明によれば、映像から、当該映像の撮影者が特定の行動を行っている場面の検出を容易にすることができる。
図1Aは、各実施形態の処理システムの概要を説明するための図である。 図1Bは、第1の実施形態の処理システムの概要を説明するための図である。 図1Cは、検出条件に設定する単体的行動の組み合わせの選択画面の例を示す図である。 図1Dは、検出条件に設定する単体的行動の組み合わせの設定の処理手順の例を示すフローチャートである。 図2は、第1の実施形態の処理システムの構成例を示す図である。 図3は、第1の実施形態の処理システムによる入力データ(映像)の処理手順の例を示すフローチャートである。 図4は、第1の実施形態の処理システムが、ユーザから選択された行動要素の組み合わせにより行動検出を行う際の処理手順の例を示すフローチャートである。 図5は、第2の実施形態の処理システムの概要を説明するための図である。 図6は、第3の実施形態の処理システムの概要を説明するための図である。 図7は、第3の実施形態の処理システムの構成例を示す図である。 図8は、第3の実施形態の処理システムによる入力データ(映像)の初期処理の処理手順の例を示すフローチャートである。 図9は、第3の実施形態の処理システムが、撮影者がある特定の対象物(特定対象)を視認したことを検出する際の処理手順の例を示すフローチャートである。 図10は、その他の実施形態の処理システムの概要を説明するための図である。 図11は、処理プログラムを実行するコンピュータの例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に説明する各実施形態に限定されない。なお、以下では、処理システムは、撮影者(例えば、作業者)により撮影された映像に基づき、当該撮影者の行動を判定し、当該撮影者が所定の行動を行った場面を検出する場合を例に説明する。
処理システムは、映像の撮影者の位置および視点の時間的変化に基づき単純な行動(以下、単体的行動と称す)を判定し、判定した単体的行動の組み合わせにより撮影者の行動を判定する。
まず、図1Aを参照しながら、各実施形態の処理システムの概要を説明する。例えば、図1Aに示すように、作業者(映像の撮影者)の行動は、作業者の移動に関する分類と、当該作業者の視点の動きに関する分類とを組み合わせることで表現できる。よって、処理システムは、上記の作業者の移動に関する分類と、当該作業者の視点の動きに関する分類との組み合わせを条件として用いることで、作業者の様々な行動を判定できる。
例えば、映像中で作業者が停留し、注視した状態であれば、処理システムは、作業者が端末操作等の注視をしていると分類(判定)できる。また、映像中で作業者が停留し、視点が見渡すような動きをしていれば、処理システムは、作業者が目視点検等をしていると判定できる。また、映像中で作業者が移動し、わき見移動をしていれば、処理システムは、作業者が広範囲の点検等をしていると判定できる。
処理システムは、上記のように階層的な作業者行動のモデルを用いて行動の判定を行う。これにより、処理システムは、ユーザにより選択された、行動の構成要素(各階層における行動)の組み合わせにより、作業者が行った様々な行動の場面を検出することができる。
例えば、処理システムは、作業者(映像の撮影者)の位置および視点それぞれについて移動量や回転量等に基づき上記の単体的行動に分類しておく。そして、ユーザはそれらの単体的行動を組み合せる、または単体的行動のパラメータの閾値をカスタマイズすることで、映像から作業者の所定の行動を検出するための条件(検出条件)を設定する。そして、処理システムは、上記の設定された検出条件に基づき、映像から作業者の様々な行動の場面の検出を行う。なお、検出条件を設定する際、処理システムは、作業者の個人差を考慮し、同じ行動に単体的行動の組み合せパターンを複数個登録してもよい。このようにすることで、処理システムは、作業者の個人差を考慮した上で、映像から当該作業者が行った行動の場面を検出することができる。
[第1の実施形態]
次に、第1の実施形態の処理システムを説明する。第1の実施形態の処理システムは、映像内で撮影者が所定の行動を行った場面を、撮影者の位置および視点の時間的変化により判定される単体的行動の組み合せによって検出する。なお、位置および視点の時間的変化は、例えば、位置および視点の時間あたりの移動量、回転量等である。
図1Bを用いて、第1の実施形態の処理システムの概要を説明する。例えば、処理システムのユーザは、検出したい撮影者の行動の構成要素(単体的行動)を選択、または、事前に設定された組み合わせをラベルで選択する。
例えば、ユーザは、「注視」という行動を検出するための検出条件として、位置「停留」×視点「固定」という組み合わせを設定する。また、ユーザは、「見渡し」という行動を検出するため検出条件として、位置「停留」×視点「往復」というの組み合わせを設定する。さらに、ユーザは、「移動」という行動を検出するため検出条件として、位置「移動」×視点「固定」という組み合わせを設定する。その後、処理システムは、上記の検出条件に基づき、映像から、撮影者が「注視」を行った場面、「見渡し」を行った場面、「移動」を行った場面を検出する。そして、処理システムは、これらの検出結果をユーザに表示する。
上記の検出条件に設定する単体的行動の組み合わせの選択例について、図1Cを用いて説明する。例えば、処理システムは、単体的行動のうち、同じ観点の行動をグルーピングしておく。例えば、移動に関する選択肢として、停留、移動等をグルーピングしておく。また、ここでは図示を省略しているが、例えば、視点に関する選択肢として、注視、見渡す、わき見移動等をグルーピングしておく。
なお、同じグループ内の単体的行動は、互いに排他的な関係になっていることが好ましい。これは、ユーザが、グループ内からある行動を検出するために単体的行動を選択しやすくするためである。また、また単体的行動それぞれが排他的な関係になっているか否かは、例えば、移動に関する単体的行動であれば、位置の移動量に基づき判断され、視点に関する単体的行動であれば、視点の回転量等により判断される。
例えば、処理システムは、図1Cに示すように、移動に関する選択肢(単体的行動群)と、視点に関する選択肢(単体的行動群)とを表示する。そして、ユーザは、表示された選択肢のグループから、行動検出に用いる単体的行動の組み合わせを選択する。例えば、ユーザは、表示された移動の選択肢のグループから、移動に関する単体的行動を選択する。また、ユーザは、表示された視点の選択肢のグループから、視点に関する単体的行動を選択する。そして、処理システムは、選択されたこれらの単体的行動の組み合わせを検出条件として設定する。
例えば、図1Dに示すように、処理システムは、ユーザから、抽出したい行動名(例えば、「移動」等)の入力を受け付けると(S211)、条件格納部15(後記)に登録された行動ラベルを、排他的なもの同士をグルーピングして表示する(S212)。例えば、処理システムが、「移動」という行動名の入力を受け付けると、「移動」に関する行動である、「移動」、「停留」等の行動ラベルをグルーピングして表示する。
S212の後、処理システムは、ユーザから行動ラベルの選択と、選択された行動ラベル間の関係性(例えば、論理和をとるか、論理積をとるか、時系列とするか等)の入力を受け付けると、入力された情報に基づき検出条件を構築する(S213:ラベルの選択とラベル間の関係性との入力を受け付け、新規条件を構築)。
例えば、行動名「移動」を検出するための単体的行動の組み合わせとして、ユーザから、「移動」に関する単体的行動から「移動」が選択され、「視点」に関する単体的行動から「固定」が選択され、これらの行動の関係性として「論理積」が入力されると、処理システムは、これらの情報をもとに行動名「移動」を検出するための検出条件として「位置:移動」×「視点:固定」を構築する(図1B参照)。そして、処理システムは、構築した検出条件を条件格納部15に格納する。
その後、処理システムは、上記の検出条件に基づき、映像からの場面検出を行う。例えば、処理システムは、図1Bに示すように、映像から、行動名「移動」の場面として、撮影者の位置が移動し、かつ、視点が固定している場面を検出する。
なお、ユーザが、撮影者や撮影環境に合わせて検出条件を調整したい場合、検出条件に設定される各単体的行動のパラメータの値を調整してもよい。例えば、ユーザは、高齢で移動がゆっくりの撮影者については、上記の検出条件に設定される撮影者の移動の速度条件を緩和する等の調整を行ってもよい。また、処理システムは、ユーザの用途に応じて前記したラベルの細分化やグルーピングを行ってもよい。さらに、処理システムは、撮影者の位置と視線の時間的変化から判定される行動を複数組み合わせ、順序性等の条件を設けることでより上位の行動を判定するようにしてもよい。
[構成例]
次に、図2を用いて処理システム10の構成例を説明する。処理システム10は、生データ格納部(取得部)11と、情報抽出部12と、データ処理部13と、UI(ユーザインタフェース)部14と、条件格納部15と、処理データ格納部16とを備える。
なお、処理システム10は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を備える。また、処理システム10は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、処理システム10は、各種のプログラムを実行することにより上記の各部の機能を実現する。さらに、生データ格納部11、条件格納部15、処理データ格納部16は、処理システム10の備える記憶装置(記憶部)と、プログラムの実行処理とにより実現される。
生データ格納部11は、撮影者が撮影した映像(映像情報)を格納する。例えば、生データ格納部11は、外部から取得した映像を格納する。情報抽出部12は、映像から、撮影者の位置情報、撮影者の視点情報等の抽出を行う。例えば、情報抽出部12は、生データ格納部11に格納される映像から、撮影者の位置情報、撮影者の視点情報を抽出する。そして、情報抽出部12は、映像から抽出した撮影者の位置情報、撮影者の視点情報を生データ格納部11に出力する。生データ格納部11は、映像と当該映像から抽出された撮影者の位置情報、撮影者の視点情報と格納する。
データ処理部13は、生データ格納部11から、映像と当該映像の撮影者の位置情報および視点情報とを取得する。そして、データ処理部13は、取得した映像と当該映像の撮影者の位置情報および視点情報と、条件格納部15に格納される検出条件とを用いて、当該映像から撮影者が当該検出条件に示される行動を行った場面を検出する。そして、データ処理部13は、検出の結果(検出結果)を、処理データ格納部16に出力する。
UI部14は、ユーザから各種設定を受け付けたり、ユーザに各種情報を表示したりするためのインタフェースを提供する。UI部14は、条件設定部141と、可視化情報表示部142と、映像表示部143とを備える。
条件設定部141は、ユーザから、撮影者の行動の検出条件の構成要素(上記の単体的行動)の選択入力を受け付けると、選択された単体的行動の組み合わせを、当該行動の検出条件に設定する。そして、条件設定部141は、設定後の検出条件を条件格納部15に格納する。
例えば、条件設定部141は、ユーザから検出条件の設定要求を受け付けると、条件格納部15に格納される単体的行動(既存要素)および既存要素の対応関係を示す情報をユーザに提示(表示)する。なお、上記の既存要素の対応関係を示す情報は、例えば、互いに排他的な関係にある1以上の単体的行動をグルーピングした情報である。その後、条件設定部141は、撮影者の行動を検出するための単体的行動の組み合わせの選択入力と、当該組み合わせに対するラベル付けの入力を受け付けると、受け付けた内容を、検出条件(新規要素)に設定し、設定後の検出条件を条件格納部15に格納する。
可視化情報表示部142は、ユーザに対し可視化情報を表示する。例えば、可視化情報表示部142は、処理データ格納部16に格納される検出結果の可視化情報を表示する。この可視化情報は、例えば、検出条件に示される各行動を行った場面の検出結果を、タイムライン上に表示した情報である(図1Bに例示する検出結果参照)。また、可視化情報表示部142は、上記の可視化情報上でユーザから映像再生場面の指定を受け付けてもよい。可視化情報表示部142は、映像再生場面の指定を受け付けた場合、指定された映像再生場面を再生範囲として映像表示部143に出力する。
映像表示部143は、指定された範囲の映像を再生し、ユーザに表示する。例えば、映像表示部143は、可視化情報表示部142から、映像の再生範囲の情報を受け取ると、当該再生範囲の映像を再生し、ユーザに表示する。
条件格納部15は、検出条件を格納する。この検出条件は、前記したとおり、検出対象となる撮影者の行動を単体的行動の組み合わせで示した情報である。なお、条件格納部15には、予め、単体的行動について、位置情報、視点情報に基づく当該単体的行動の検出条件および当該単体的行動のラベルが格納されている。
なお、前記したとおり、検出条件に含まれる単体的行動のパラメータの値(例えば、位置情報や視点それぞれの移動量または回転量の時間的変化の値)は、ユーザの指示入力により適宜変更可能である。例えば、撮影者が高齢で移動がゆっくりである場合、検出条件における移動の速度条件を緩やかにする等の変更を行うことで、データ処理部13は、より精度よく場面検出を行うことができる。なお、上記の移動量は、例えば、移動距離のみならず移動の方向に関する情報も含んでいてもよい。移動量が移動の方向に関する情報を含む場合、移動量は、例えば、ベクトル等で表される。検出条件が、上記の移動の方向に関する情報を含むことで、データ処理部13は、わき見移動等、移動の方向の差により表現される行動を検出したり、見渡し等、往復の動きを用いた行動を検出したりすることができる。
また、検出条件は、撮影者が行う行動の順序(例えば、注視→見渡し→移動等)に関する条件を含んでいてもよい。検出条件が上記の条件を含むことで、データ処理部13は、撮影者が行った一連の行動について、指定された順序で行った場面を検出することができる。
処理データ格納部16は、データ処理部13による検出結果を格納する。
[処理手順]
次に、図3を用いて、処理システム10による入力データ(映像)の処理手順の例を説明する。
まず、処理システム10は、撮影者が撮影した映像情報(映像)を取得し、生データ格納部11に格納する(S11:映像情報の取得)。そして、処理システム10は、生データ格納部11のデータまたは条件格納部15の検出条件に更新有りと判定した場合(S12でYes)、S13へ進む。なお、処理システム10が、生データ格納部11内のデータにも、条件格納部15内の検出条件にも、更新無しと判定した場合(S12でNo)、S12に戻る。
S13において、処理システム10が、処理システム10内で映像から情報抽出(例えば、撮影者の位置情報、視点情報の抽出)を行うと判断した場合(S13でYes)、情報抽出部12は、映像からの情報抽出を実施する(S14)。例えば、情報抽出部12は、地図情報と撮影者の位置情報とをSLAM(Simultaneous Localization and Mapping)によって抽出する。S14の後、情報抽出部12は、抽出した情報を抽出元の映像と対応付けて生データ格納部11に格納し、S15へ進む。一方、処理システム10が処理システム10内で映像から情報抽出を行わないと判断した場合(S13でNo)、S14の処理をスキップし、S15へ進む。
S15において、データ処理部13は、条件格納部15に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部15は、格納された検出条件をデータ処理部13に渡す(S16)。
S16の後、データ処理部13は、各行動要素について、条件(S16で渡された検出条件)に基づき映像内の該当場面を検出する(S17)。そして、データ処理部13は、処理データ格納部16に各行動要素の検出結果を格納する(S18)。
次に、図4を用いて、処理システム10が、ユーザから選択された行動要素(単体的行動)の組み合わせにより行動検出を行う際の処理手順の例を説明する。
まず、処理システム10の条件設定部141は、ユーザから、映像から抽出したい行動のラベルの設定を受け付ける(S21)。そして、条件設定部141は、当該行動の検出条件となりうる行動要素を条件格納部15に登録済みの行動要素から表示し、その中から当該行動の検出条件となる行動要素の選択を受け付ける(S22:当該行動の検出条件となり得る行動要素を登録済みの行動要素の中から選択)。
なお、S22において、条件設定部141が、当該行動の検出条件となりうる行動要素が未登録であると判断した場合、ユーザは必要な行動要素を入力し、登録するようにしてもよい。また、このとき条件設定部141は、必要に応じ、ユーザから、行動の検出条件の調整を受け付け、条件格納部15内における当該行動の検出条件に反映させてもよい。
S22の後、条件設定部141は、S22で選択された行動要素を当該行動の検出条件として設定し、条件格納部15に登録する(S23:追加・更新された行動要素を登録)。
S23の後、データ処理部13は、条件設定部141で追加・更新された行動要素を映像内から検出し(S24)、S24における検出結果を処理データ格納部16に格納する(S25)。その後、可視化情報表示部142は、処理データ格納部16に格納された検出結果を可視化情報として表示する(S26:検出結果を可視化表示)。
このような処理システム10によれば、ユーザは、撮影者の単体的行動の組み合わせにより、映像から撮影者の行動を検出するための検出条件を設定することができる。その結果、映像から、当該映像の撮影者が特定の行動を行っている場面を検索しやすくなる。
[第2の実施形態]
次に、図5を用いて、本発明の第2の実施形態を説明する。第2の実施形態の処理システム10は、映像内から撮影者が所定の行動を行っている場面を除外することを特徴とする。
例えば、処理システム10は、図5に示すように、ユーザから「映像から作業場所間の移動中の場面をカット」という指示入力を受け付けた場合、当該指示入力に基づき、映像から、撮影者の行動が「作業場所間の移動」である場面をカットまたは非表示とする。
例えば、処理システム10に条件設定部141が、上記のカット(除外)の対象となる撮影者の行動の選択入力を受け付けると、当該行動をカット場面の検出条件として条件格納部15に格納する。その後、データ処理部13は、条件格納部15に格納されたカット場面の検出条件を用いて、撮影者が、上記のカット場面の検出条件に示される行動を行った場面をカットする。
例えば、上記のカット場面の検出条件として、位置が「移動」であり、撮影者の移動速度が「a」を超え、その継続時間が「b」を超える場面をカットする旨の条件が設定されている場合を考える。この場合、データ処理部13は、上記の検出条件に基づき、撮影者の移動速度が「a」を超える状態での継続時間が「b」を超える場面を検出すると、当該場面をカットして、処理データ格納部16に格納する。その後、例えば、映像表示部143は、カットされた場面を除外した映像を表示する。このような処理システム10によれば、映像内からユーザの視聴目的外の場面を除外することができるので、ユーザは、ユーザの視聴目的に合った映像のみを視聴することができる。なお、上記のようにして映像から除外された場面は、例えば、ユーザ操作により復元可能としてもよい。
[第3の実施形態]
次に、本発明の第3の実施形態を説明する。第3の実施形態の処理システムは、撮影者がある対象を映した場面の中から、当該撮影者が特定の行動を行った場面を絞り込む。
例えば、図6に示すように、第3の実施形態の処理システムは、場面の検出条件として、撮影者が撮影時にある対象を捉えたか(カメラで捉えたか)という条件と、撮影者の行った行動がどのような行動かという条件とを組み合わせる。これにより処理システムは、映像において、撮影者がある対象にどのような行動を行ったかを判定できるので、撮影者がある対象に特定の行動を行った場面を絞り込むことができる。
なお、撮影者が、ある対象物をカメラで捉えたか(視認したか)否かは、映像内におけるオブジェクトの検出、または、撮影位置および視点方向を用いたカメラの画角等から判定することができる。また、撮影者が対象物を意識的に見たか否かは、対象物までの距離や、撮影者が当該対象物をどの程度正面の位置から捉えたか等から判定することができる。
処理システムが、撮影者の行動に加え、撮影者が視認する対象物の位置による絞り込みを併用することで、撮影者の位置情報および視線情報のみからより具体的な行動の判定が可能となる。ここで、処理システムは、対象物の位置(対象位置)を検出条件に設定するため、例えば、映像内の各場面における位置情報が紐づいた地図情報を利用する。なお、地図情報の取得方法は、例えば、外部から座標に対応する地図を読み込む方法や、SLAM等により同期された位置情報と地図情報とを取得する方法等がある。
図7を用いて、第3の実施形態の処理システムである処理システム10aの構成例を説明する。前記した実施形態と同じ構成は同じ符号を付して説明を略す。
図7に示すように、処理システム10aの情報抽出部12は、映像から位置情報、視点情報、地図情報を抽出する。そして、情報抽出部12は、映像と当該映像から抽出された位置情報、視点情報、地図情報とを生データ格納部11に格納する。
条件設定部141は、ユーザから、検出条件として、視認の対象物との距離および撮影角度の条件の指定を受け付ける。また、条件設定部141は、ユーザから、検出対象となる撮影者の行動の選択(検出行動の選択)を受け付ける。例えば、条件設定部141は、条件格納部15に格納される既存要素(行動要素)をユーザに提示し、ユーザから検出行動の選択を受け付ける。その後、条件設定部141は、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とを検出条件に設定する。そして、条件設定部141は、設定後の検出条件(新規要素)を、条件格納部15に格納する。
また、可視化情報表示部142は、生データ格納部11に格納された地図情報に基づき、ユーザに地図を表示する。そして、可視化情報表示部142は、地図上からの視認の対象物の位置の指定(対象位置指定)を受け付けると、指定された位置(対象位置)を条件設定部141に受け渡す。その後、条件設定部141は、指定された対象位置を、上記の視認の対象物との距離および撮影角度の条件と、選択された検出行動とが設定された検出条件に追加し、条件格納部15に格納する。
データ処理部13は、条件格納部15に格納された検出条件に基づき、場面検出を行う。例えば、データ処理部13は、映像から、撮影者が検出条件に設定された角度・距離で当該検出条件に設定された対象物を視認し、かつ、当該検出条件に設定された行動を行った場面を検出する。
[処理手順]
次に、図8を用いて、処理システム10аによる入力データ(映像)の初期処理の処理手順の例を説明する。
まず、処理システム10аは、撮影者が撮影した映像情報(映像)を取得し、生データ格納部11に格納する(S31:映像情報の取得)。そして、処理システム10аが処理システム10内で映像から情報抽出(例えば、撮影者の位置情報、視点情報、地図情報の抽出)を行う場合(S32でYes)、情報抽出部12は、映像からの情報抽出を実施する(S33)。例えば、情報抽出部12は、位置情報と地図情報をSLAM等によって取得する。一方、処理システム10が処理システム10内で映像から情報抽出を行わない場合(S32でNo)、S33の処理をスキップし、S34へ進む。
S34において、データ処理部13は、条件格納部15に格納された各行動要素の検出条件を参照する。そして、上記の参照要求を受けた条件格納部15は、格納された検出条件をデータ処理部13に渡す(S35)。
S35の後、データ処理部13は、各行動要素について、条件(S35で渡された検出条件)に基づき映像内の該当場面を検出する(S36)。例えば、データ処理部13は、検出条件に示される各行動要素に対応する位置情報、視点情報を持つ場面を検出する。その後、データ処理部13は、処理データ格納部16に各行動要素の検出結果、および、S33で抽出された地図情報、位置情報、視点情報を格納する(S37)。
次に、図9を用いて、処理システム10が、撮影者が特定対象を視認したことを検出する際の処理手順の例を説明する。
まず、処理システム10の条件設定部141は、ユーザから、撮影者が特定対象物を視認したとみなすための距離および撮影角度の条件の指定を受け付ける(S41:特定対象に対する角度・距離の条件を指定)。また、条件設定部141は、ユーザから、検出対象となる撮影者の行動の指定を受け付ける(S42:検出する撮影者の行動を指定)。
S42の後、可視化情報表示部142は、ユーザから視認の対象物の位置(対象位置)の指定を受け付ける(S43:ユーザによる対象位置の指定)。例えば、可視化情報表示部142は、処理データ格納部16に格納された地図情報に基づき、ユーザに地図を表示し、地図上からの視認の対象位置の指定を受け付ける。そして、可視化情報表示部142は、ユーザから指定された対象位置を条件設定部141に受け渡す。その後、条件設定部141は、指定された対象位置を、上記の特定対象に対する角度・距離の条件と撮影者の行動とが設定された検出条件に設定し、条件格納部15に格納する。
S43の後、データ処理部13は、上記の条件格納部15に格納された検出条件に基づき場面の検出を行う(S44)。すなわち、データ処理部13は、S43で指定された対象位置および設定された条件(検出条件)に基づき、映像から場面を検出する。例えば、データ処理部13は、映像から、撮影者がS41で指定された角度・距離で、S43で指定された対象位置にある対象物を視認し、かつ、S42で指定された行動を行ったと判定した場面を検出する。
そして、データ処理部13は、S44における検出結果を処理データ格納部16に格納する(S45)。その後、可視化情報表示部142は、地図上に、S43で指定された対象位置を表示し、また、S45で格納された検出結果を可視化情報として表示する(S46:地図上に指定された対象位置を表示し、検出結果を可視化表示)。これにより、処理システム10aのユーザは、指定した対象位置を地図上で確認しつつ、映像中、撮影者が当該対象位置の対象物を視認した状態で、指定された行動を行った場面の検出結果を確認することができる。
なお、上記の実施形態において処理システム10aは、対象位置の指定を、当該対象に対する角度・距離の条件の指定の後で受け付けることとしたが、これに限定されない。例えば、処理システム10aは、対象位置の指定を、当該対象に対する角度・距離の条件の指定を受け付けるときに併せて受け付けてもよい。
[その他の実施形態]
なお、各実施形態の処理システム10,10aは、撮影者の位置情報、視点情報、撮影者が視認した対象物の情報以外の情報を組み合わせて場面の検出を行ってもよい。例えば、処理システム10,10aが、場面を検出する組み合せ要素として、特定の音声や登録オブジェクトの映り込み、映像と同期的に取得したセンサデータの値(例えば、気温等の環境情報や、端末ごとに設置したセンサタグの認識状態)等も検出条件として用いてもよい。このようにすることで、処理システム10,10aによる場面の絞込みの汎用性を強化することができる。
例えば、処理システム10,10aは、図10に示すように、映像から場面を検出する条件(検出条件)として、撮影者の位置情報、視点情報のほかに、画像認識の結果、音声情報、温度等を用いてもよい。これにより、処理システム10,10aは、映像に特定の対象が映った、警告音が鳴った、装置の熱暴走を検知した等の事象も組み合わせて場面を検出することができる。その結果、処理システム10,10aは、より多彩な組み合わせにより行動検出を行うことができる。
[効果]
以上説明した処理システム10,10aによれば以下のような効果を得ることができる。
(1)任意の行動の表現を簡易化
従来、映像から撮影者が所定の行動を行った場面を検出する際、撮影者の複雑な行動を表現するためには、ユーザが複雑な数値条件を設定する必要であった。一方、処理システム10,10aは、人の行動が階層的であるとみなすことにより、ユーザは単純な行動や移動特性(単体的行動)を組み合せるだけで、検出対象の行動を表現することができる。例えば、人の行動は細分化すると「手を動かす」「視線が動く」等の細かい要素である。よって、処理システム10,10aは、これらの要素を組み合わせた上位の行動として「歩く」「注視する」等の全身での行動を表現することで、「歩く」「注視する」等の行動を検出することができる。さらに、行動を時系列的に繋げることで作業単位等より大きな単位での行動が表現できるので、処理システム10,10aは、行動を時系列的に繋げることで作業単位等、より大きな単位での行動を表現し、検出することができる。
(2)直感的な行動の組み上げ
処理システム10,10aは、基礎的な行動(単体的行動)を同じ観点(位置の移動量、視点の回転量等)に基づくもの同士をグルーピングし、さらにグループ内の各行動が排他的になるように項目を設定する。これにより、ユーザが処理システム10,10aを用いて任意の行動を組み合わせる際に、より直感的に該当する項目を選択しやすくなる。
(3)個人差や環境要因に合わせたカスタマイズの容易性
映像から撮影者が所定の行動を行った場面を検出する際には環境要因や個人差による検出精度のブレが想定される。このため、従来の数値条件を用いた場面検出では、利用シチュエーションに合わせたカスタマイズ等を行うためには全ての数値条件を再度見直す必要があった。一方、処理システム10,10aにおいては、検出条件に設定される撮影者の行動は、単純な行動(単体的行動)の組合せであるため、個人差や環境要因にあわせて必要な行動の数値条件のみ調整することで、利用シチュエーションに合わせたカスタマイズが可能となる。
[実施の形態のシステム構成について]
処理システム10,10aの各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、処理システム10,10aの機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、処理システム10,10aにおいておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、処理システム10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
図11は、プログラムが実行されることにより、処理システム10,10aが実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、処理システム10,10aの各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、処理システム10,10aにおける機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10 処理システム
11 生データ格納部
12 情報抽出部
13 データ処理部
14 UI部
15 条件格納部
16 処理データ格納部
141 条件設定部
142 可視化情報表示部
143 映像表示部

Claims (7)

  1. 撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部と、
    映像と、前記映像の撮影者の位置情報および視点情報とを取得する取得部と、
    取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出するデータ処理部と、
    を備え、
    前記検出条件は、さらに、
    前記撮影者が視認する対象物の情報を含み、
    前記撮影者が視認する対象物の情報は、
    前記撮影者が前記対象物を視認したとみなすための当該対象物との距離および撮影角度の少なくともいずれかと、地図上から指定された当該対象物の位置情報とを含み、
    前記データ処理部は、さらに、
    前記取得した映像と、前記映像の撮影者の位置情報および視点情報と、前記対象物の位置情報とを用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定し、前記判定の結果を用いて、前記撮影者が前記対象物を視認し、かつ、前記検出条件に示される行動を行った場面を検出し、
    前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する際、前記対象物の指定に用いられた地図と、前記取得した映像と、前記映像の撮影者の位置情報および視点情報とを用いて、前記撮影者と前記検出条件に示される対象物との距離および撮影角度の少なくともいずれかを推定し、前記推定の結果を用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する
    ことを特徴とする処理システム。
  2. 前記撮影者の行動ごとに、当該行動を検出するための前記単体的行動の組み合わせおよび前記単体的行動の関係性の選択入力を受け付け、前記選択入力された、前記行動ごとの当該行動を検出するための単体的行動の組み合わせおよび前記単体的行動の関係性を前記検出条件に設定する条件設定部
    をさらに備えることを特徴とする請求項1に記載の処理システム。
  3. 前記条件設定部は、さらに、
    前記検出条件における前記単体的行動のパラメータ値の調整の入力を受け付け、前記入力に基づき、前記検出条件における前記単体的行動のパラメータ値の調整を行う
    ことを特徴とする請求項2に記載の処理システム。
  4. 前記記憶部は、さらに、
    互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を記憶し、
    前記条件設定部は、
    前記行動を検出するための前記単体的行動の組み合わせの選択入力を受け付ける際、互いに排他的な関係にある複数の前記単体的行動をグルーピングした情報を、前記単体的行動の選択肢として表示する
    ことを特徴とする請求項2に記載の処理システム。
  5. 前記処理システムは、さらに、
    前記撮影者が前記検出条件に示される行動を行った場面の検出結果の可視化情報を表示し、前記表示された可視化情報上から、前記映像の再生場面の選択入力を受け付ける可視化情報表示部と、
    前記選択入力された前記映像の再生場面を再生し、表示する映像表示部と、
    を備えることを特徴とする請求項1に記載の処理システム。
  6. 前記検出条件は、さらに、
    前記単体的行動の組み合わせにより、前記映像からの除外対象となる場面を記述した情報を含み、
    前記データ処理部は、さらに、
    前記映像から前記検出条件に示される除外対象となる場面を除外する
    ことを特徴とする請求項1に記載の処理システム。
  7. 処理システムにより実行される処理方法であって、
    前記処理システムは、撮影者の位置情報および視点それぞれの移動量または回転量の時間的変化により定義される前記撮影者の基礎的な行動である単体的行動の組み合わせにより、映像から撮影者の行動を検出するための条件を示した検出条件を記憶する記憶部を有し、
    映像と、前記映像の撮影者の位置情報および視点情報とを取得する工程と、
    取得した、前記映像、当該映像の撮影者の位置情報および視点情報と、前記検出条件とを用いて、前記映像から撮影者が前記検出条件に示される行動を行った場面を検出する工程と、
    前記検出条件は、さらに、
    前記撮影者が視認する対象物の情報を含み、
    前記撮影者が視認する対象物の情報は、
    前記撮影者が前記対象物を視認したとみなすための当該対象物との距離および撮影角度の少なくともいずれかと、地図上から指定された当該対象物の位置情報とを含み、
    前記検出する工程は、さらに、
    前記取得した映像と、前記映像の撮影者の位置情報および視点情報と、前記対象物の位置情報とを用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定し、前記判定の結果を用いて、前記撮影者が前記対象物を視認し、かつ、前記検出条件に示される行動を行った場面を検出し、
    前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する際、前記対象物の指定に用いられた地図と、前記取得した映像と、前記映像の撮影者の位置情報および視点情報とを用いて、前記撮影者と前記検出条件に示される対象物との距離および撮影角度の少なくともいずれかを推定し、前記推定の結果を用いて、前記撮影者が前記検出条件に示される対象物を視認したか否かを判定する
    ことを特徴とする処理方法。
JP2022532899A 2020-06-30 2020-06-30 処理システム及び処理方法 Active JP7468653B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025729 WO2022003842A1 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法

Publications (2)

Publication Number Publication Date
JPWO2022003842A1 JPWO2022003842A1 (ja) 2022-01-06
JP7468653B2 true JP7468653B2 (ja) 2024-04-16

Family

ID=79315772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532899A Active JP7468653B2 (ja) 2020-06-30 2020-06-30 処理システム及び処理方法

Country Status (2)

Country Link
JP (1) JP7468653B2 (ja)
WO (1) WO2022003842A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209836A (ja) 2002-01-17 2003-07-25 Mitsubishi Electric Corp 情報伝達システム及び情報表示システム及び情報伝達方法及び情報表示方法
JP2009188899A (ja) 2008-02-08 2009-08-20 Sony Corp 画像の撮影装置、その表示装置および画像データの管理システム
JP2015023552A (ja) 2013-07-23 2015-02-02 キヤノン株式会社 画像再生装置、画像再生方法、プログラム、及び記憶媒体
WO2018212013A1 (ja) 2017-05-18 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209836A (ja) 2002-01-17 2003-07-25 Mitsubishi Electric Corp 情報伝達システム及び情報表示システム及び情報伝達方法及び情報表示方法
JP2009188899A (ja) 2008-02-08 2009-08-20 Sony Corp 画像の撮影装置、その表示装置および画像データの管理システム
JP2015023552A (ja) 2013-07-23 2015-02-02 キヤノン株式会社 画像再生装置、画像再生方法、プログラム、及び記憶媒体
WO2018212013A1 (ja) 2017-05-18 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JPWO2022003842A1 (ja) 2022-01-06
WO2022003842A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US11210504B2 (en) Emotion detection enabled video redaction
CN105339868B (zh) 基于眼睛跟踪的视觉增强
Kurzhals et al. Gaze stripes: Image-based visualization of eye tracking data
JP6684883B2 (ja) カメラエフェクトを提供する方法およびシステム
US11676389B2 (en) Forensic video exploitation and analysis tools
JP5527423B2 (ja) 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体
US10936472B2 (en) Screen recording preparation method for evaluating software usability
JPWO2011152149A1 (ja) 領域推薦装置、領域推薦方法、及び記録媒体
JP6334767B1 (ja) 情報処理装置、プログラム、及び情報処理方法
JP2009294740A (ja) データ処理装置及びプログラム
US11334621B2 (en) Image search system, image search method and storage medium
JP6910208B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20220044147A1 (en) Teaching data extending device, teaching data extending method, and program
Bernin et al. Towards more robust automatic facial expression recognition in smart environments
US10043085B2 (en) Framework for analysis of body camera and sensor information
EP3333801B1 (en) A surveillance apparatus and a surveillance method for indicating the detection of motion
JP5776471B2 (ja) 画像表示システム
JP7468653B2 (ja) 処理システム及び処理方法
JP5850188B2 (ja) 画像表示システム
JP2019020820A (ja) 映像認識システム
US20230259817A1 (en) Machine learning pipeline
Murugaraj et al. Performance assessment framework for computational models of visual attention
WO2024190123A1 (ja) 処理装置、処理方法、及び記録媒体
JP2019125305A (ja) 教師データ作成支援装置
WO2021149261A1 (ja) 表示システムおよび表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7468653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150