JP2022065293A - 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体 - Google Patents

映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体 Download PDF

Info

Publication number
JP2022065293A
JP2022065293A JP2020173769A JP2020173769A JP2022065293A JP 2022065293 A JP2022065293 A JP 2022065293A JP 2020173769 A JP2020173769 A JP 2020173769A JP 2020173769 A JP2020173769 A JP 2020173769A JP 2022065293 A JP2022065293 A JP 2022065293A
Authority
JP
Japan
Prior art keywords
video
time
section
person
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020173769A
Other languages
English (en)
Inventor
俊介 佐藤
Shunsuke Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020173769A priority Critical patent/JP2022065293A/ja
Priority to US17/477,731 priority patent/US20220121856A1/en
Publication of JP2022065293A publication Critical patent/JP2022065293A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を合成する。【解決手段】映像処理装置において、映像を取得する映像取得手段と、前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする。【選択図】 図4

Description

本発明は、映像の要約等を作成可能な映像処理装置等に関する。
映像処理の技術において、長時間の動画の内容を要約して閲覧しやすい要約映像を作成する方法が提案されている。
たとえば、特許文献1には、異なる時間の被写体を、服装や年代などの、利用者(観察者)が指定した条件で絞って、同時に表示する要約映像を作成する手法が提案されている。
米国特許9877086号明細書
一方、例えば、ある特定の行動を取った被写体について要約映像を作成したい場合、利用者(観察者)が注目したいのは映像に被写体が映っている範囲のうち、対象とした行動を取っている区間であると考えられる。
そのため、被写体がいつどこで注目すべき行動を取っているかを考慮しなければ視認性の良くない要約映像が作成されてしまう可能性がある。たとえば、注目すべき行動をまさに取っている最中の被写体同士が重なってしまうと、観察に支障をきたす可能性がある。
本発明は以上の課題に鑑みて為されたもので、所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を生成することを目的としたものである。
上記の課題を解決するため、本発明の映像処理装置は、
映像を取得する映像取得手段と、
前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、
前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする。
本発明によれば、所定の被写体が所定の特徴動作を行った時間区間に基づき、視認性のよい要約映像を生成できる。
本発明の実施例1における、映像処理装置(映像処理システム)の全体構成図である。 実施例1における、映像処理装置(映像処理システム)の機能ブロック図である。 実施例1における、被写体の動作例を説明する模式図である。 実施例1における、要約元映像から要約映像を作成する方法を説明するための図である。 実施例1における、映像処理装置が実行する処理の手順を示すフローチャートである。 実施例1における、表示部210に表示される設定画面の一例を示す図である。 実施例1における、ステップS507の処理の手順の詳細例を示すフローチャートである。 実施例1における、ステップS507の処理において区間列Mが変化する様子を説明する図である。 本発明の実施例2における、要約映像の一例を示す図である。 実施例2における、ステップS507の処理例を示すフローチャートである。 実施例2における、ステップS1005の処理について説明する図である。 本発明の実施例3における、要約映像を説明する図である。
以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。なお、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
また、実施例においては、撮像装置としてネットワークカメラに適用した例について説明する。しかし、撮像装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、車載カメラなどの撮像機能を有する電子機器等を含む。
図1は本発明の実施例1における、映像処理装置(映像処理システム)の全体構成図である。
ネットワークカメラ101は、撮像素子、レンズ、これらを駆動するモーター、これらを制御するCPU(Central Processing Unit)やMPU(Micro-processing unit)やメモリ等によって構成される。さらにネットワークカメラ101は、上記構成を備える撮影装置であって、動画を撮影して電子的な画像データに変換する。ネットワークカメラ101は利用者(観察者)が監視を要する場所に設置され、撮影した映像をカメラネットワーク105に通じて送信する。
解析サーバ102はコンピュータとしてのCPUやMPUやメモリ等を含み、ネットワークカメラ101等から送信される映像、または録画サーバ103に記録された映像を解析する。解析サーバ102は設置個所に応じて例えば顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知などの認識処理を行い、結果を集計して、設定に従って利用者に通知する。
録画サーバ103は、ネットワークカメラ101から取得した映像を保有するストレージに記録し、解析サーバ102、クライアント端末装置104などの要求に従って記録した映像を送信する。また、解析サーバ102の解析結果を示すメタデータなども併せて保存する。
録画サーバ103は、ストレージとしてのハードディスクなどの記録メディアおよびCPUやMPUやROM等によって構成される。記録メディアの代わりに、NAS(Network Attached Storage)やSAN(Storage Area Network)、クラウドサービスなどのネットワーク上のストレージを用いてもよい。
クライアント端末装置104はディスプレイや操作部としてのキーボード等と接続されたコンピュータとしてのCPUやMPUやメモリ等を含む装置であり、ネットワークカメラ101の映像を、録画サーバ103を通じて取得して閲覧し、監視を行う。また、録画サーバ103に記録された過去の映像を閲覧したり、解析サーバ102の解析結果を合わせて閲覧したり、通知を受け取ったりする。
ネットワークカメラ101、解析サーバ102、録画サーバ103は、カメラネットワーク105によって接続される。また、解析サーバ102、録画サーバ103、クライアント端末装置104は、クライアントネットワーク106によって接続される。カメラネットワーク105およびクライアントネットワーク106は、例えばLANによって構成される。
なお、本実施例では映像処理装置(映像処理システム)は、ネットワークカメラ101、解析サーバ102、録画サーバ103、クライアント端末装置104は異なるコンピュータ装置としているが、本実施例はこのような構成に限定されるものではない。これらの複数の装置全部を一体として構成しても良いし、一部の装置を組み合わせてもよい。
例えば解析サーバ102、録画サーバ103を1つのサーバ装置の中のアプリケーションや仮想サーバとして構成してもよい。また、解析サーバ102と録画サーバ103のうちの少なくとも一方の機能をクライアント端末装置104に設けてもよいし、解析サーバ102や録画サーバ103の機能をネットワークカメラ101に搭載してもよい。
図2は実施例1における、映像処理装置(映像処理システム)の機能ブロック図である。
本映像処理装置は、撮影部201、検出部202、区間選択部203、要約部204、配置部205、映像合成部206、記憶部209、表示部210、操作部211等を有する。解析サーバ102はMPU207、コンピュータプログラムを記憶したメモリ208を含む。
撮影部201は、図1に示すネットワークカメラ101に対応する。映像を撮影し、電子的な画像データのストリームに変換して、解析サーバ102および録画サーバ103に送信する。
検出部202、区間選択部203、要約部204、配置部205、映像合成部206は、解析サーバ102に含まれ、MPU207がメモリ208に記憶されたコンピュータプログラムを実行する際のソフトウェアモジュール等として構成されている。
検出部202は、撮影部201または録画サーバ103等の記録媒体から取得した映像から所定のカテゴリに属する被写体を検出し、また被写体を追尾して被写体の時系列的な軌跡を決定する。即ち、検出部202は映像を取得する映像取得手段として機能している。
区間選択部203は、検出部202が検出した被写体の追尾軌跡について、利用者の指定した条件に基づいて、時系列の特徴的な時間区間を選択する。即ち、区間選択部203は、映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段として機能している。区間選択部203は被写体ごとに時間的に変化する特徴量の抽出を行い、その特徴量抽出の結果を用いて時間区間を選択する。時間区間は一つの被写体の追尾軌跡から複数選択されることもあれば、一つも選択されないこともありうる。
要約部204は、検出部202で検出された被写体について、利用者の指定した条件に基づいて、要約された映像に盛り込む(表示する)ものを選定する。
配置部205は、MPU等によって構成され、要約部204が選定した被写体について、要約された映像における時間的な配置を決定する。
映像合成部206は、配置部205の決定に従って要約映像を合成する。これらの要約部204、配置部205、映像合成部206等によって、区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段が構成されている。
記憶部209は、図1に示す録画サーバ103のストレージに対応する。
記憶部209は、ハードディスクなどの記録メディアおよびMPU等によって構成され、撮影部201が撮影した映像を保存する。また、それらの映像のカテゴリや相互関係を示す情報や作成時刻などのメタデータもあわせて保存する。
表示部210と操作部211は、図1に示すクライアント端末装置104に含まれる。クライアント端末装置104はさらにMPU212及びコンピュータプログラムを記憶したメモリ213を含む。
表示部210は、液晶画面等の表示デバイスを含み、MPU212等によって表示画面が制御され、利用者に情報を提示し、また操作を行うためのユーザーインターフェース(UI)画面を作成して表示する。
操作部211は、スイッチやタッチパネル等によって構成され、利用者による操作を検出してクライアント端末装置104に入力する。
なお、操作部211はタッチパネルだけでなく、マウスやトラックボールなどのポインティングデバイスを含んでもよい。
次に、図3および図4を用いて、本実施例における映像処理装置の動作について説明する。図3は実施例1における、被写体の動作例を説明する模式図であり、図4は実施例1における、要約元映像から要約映像を作成する方法を説明するための図である。ここでは、店舗に設置されたカメラの映像から、特定の棚に手を伸ばした人物について要約映像を生成する例を説明する。
図3(A)は、撮影部201が撮影する映像の例を示す模式図である。撮影部201は、小売店の商品棚300が立ち並ぶ場所の天井に設置され、見下ろしで撮影を行っている。
利用者が、新商品への顧客の反応を分析するため、新商品を配置した商品棚300に手を伸ばすという所定の特徴動作を行った人物(被写体)を確認しようとする場合を考える。その場合、撮影部201で撮影され、記憶部209に記録された例えば1か月分の映像記録(以下、要約元映像と呼ぶ)に対して、本実施例を利用して要約映像を作成する。
図3の(B)、(C)、(D)はいずれも要約元映像に記録された、商品棚300に手を伸ばした人物の例を示す模式図である。図3(B)の人物301は,同図の破線矢印の経路で移動し、その途中で商品棚300に手を伸ばしている。図3(B)では手を伸ばしている瞬間を模式図としている。図3(C)の人物302,図3(D)の人物303についても同様である。
人物301、人物302、人物303の要約元映像中の出現時間は数日から数週間離れており、長期間の映像から、利用者が該当者を探し出して手動で比較再生を行うことは非常に煩雑となり、手間がかかる。
以下、要約元映像に含まれるこの3名を対象として要約した映像の具体的な例を示す。なお、例示と説明の都合のため、少人数の例を用いて説明するが、さらに大人数、例えば数十人から数百人を対象として同様の要約映像を作成することも可能であり、その場合には、有用性がより高くなると考えられる。なお、複数の被写体ではなく、単独の被写体が所定の特徴動作を行った複数の時間区間を選択し、選択された前記複数の時間区間の映像を時間的に近づけて合成するものであってもよい。例えば、長時間(例えば、1年間)の映像から映像を生成する場合は、同一人物が何度も撮影されていることがありうる。同一人物が行った行動のうち、統計的に頻度が多い/少ない行動や特定の場所で発生すること等といった注目したい行動を抽出するような映像を生成してもよい。下記に説明する処理によって、例えば、同一人物が異なる時間に行った特徴的な行動を同時に重畳した映像を生成することも可能である。
図4(A)は、要約元映像に含まれる人物の出現時間を表わす、右方向に向かって時間が経過しているタイムライン図である。矢印400が要約元映像の全体の時間的範囲を表わし、人物301,302,303の出現時間を401、402、403の破線矢印でそれぞれ表わす。
401,402,403に重畳されている矩形は、人物の出現時間のうち、注目行動を取った時間範囲、ここでは商品棚300に手を伸ばしている時間範囲を表わす。なお、要約元映像の長さを表わす矢印400は図示のため省略線で途中を省略しているが、全体の長さは人物の出現時間よりもはるかに長いものとする。
図4(B)は、図4(A)のタイムラインで表わされる要約元映像を、本実施例によって要約した映像の例を説明する図である。
矢印410は、要約された映像の全体を表わす。411,412,413は、要約された映像での人物301,302,303の出現時間をそれぞれ表わす。411,412,413の長さと注目行動の時間区間は、図4(A)の401,402,403とそれぞれ同じである。図示したように、複数の時間区間の映像を時間的に近づけて合成配置することで、要約元映像ではそれぞれ異なる時間に出現する人物を、要約された映像の中では同時に表示しつつ、注目行動を取った範囲が順序よく重ならないように表示する。この結果として、要約された映像として、次々と商品棚300に人が訪れて手を伸ばす映像が合成される。
図4(C)は、図4(B)で表わした要約映像の代表的なフレームの模式図である。図4(B)の一点破線で表わした時刻のフレーム画像をそれぞれ図示している。図4(C)の(C3)、(C4)、(C5)は、それぞれ人物301,302,303が商品棚300に手を伸ばしている時のフレーム画像である。例えば(C4)では、人物302が商品棚300に手を伸ばしているが、手を伸ばした後で商品棚から離れる人物301および、商品棚に向かう途中の人物303も同時に表示されている。
このような要約映像を作成することにより、商品棚300にまさに手を伸ばしている瞬間に注目しつつ、その前後の人物の動作も連続的に表示されるので、利用者が短時間で効率的に確認しやすい要約映像が得られる。
ここで、注目する行動を優先して要約映像の合成を行うため、人物の登場順序は必ずしも要約元映像と一致しなくてもよい。例えば図4(A)では、人物302は人物301よりも要約元映像では後から出現しているが、要約した映像では(C1)で人物302が出現し、その後で(C2)で人物301が出現している。
これは、人物302が商品棚300に手を伸ばす前の滞留時間の長さによる。また、注目行動の瞬間については視認しやすいよう人物同士が重ならないように制御するが、その結果として注目行動以外のタイミングでは人物が重なり合うこともある。本図の例では(C2)および(C4)の人物301と人物303が重なり合っている。
次に、図5は実施例1における、処理の手順を示すフローチャートであり、図6は実施例1における、表示部210に表示される設定画面の一例を示す図である。図5、図6を用いて、以上の動作を実現するための動作フローおよび設定画面の例を説明する。なお、図5のフローは解析サーバ102のMPU207がメモリ208に記憶されたプログラムを実行することによって行われる。
まず、ステップS501において、利用者がクライアント端末装置104を用いて、要約の条件と要約元映像の指定に関する情報を受信する。
図6は、クライアント端末装置104の表示部210に表示される要約条件設定画面の一例を示す模式図である。利用者は、操作部211を操作して、希望する要約条件の設定を行う。
図6のUI(User Interface)の表示制御はクライアント端末装置104のMPU212がメモリ213に記憶されたプログラムを実行することによって行われる。
601は、利用者が要約の対象としたい人物の行動の内容を指定するためのプルダウンコントロールである。区間選択部203が認識可能な行動の種類を選択可能な行動としてあらかじめ複数用意し、それらを列挙し、利用者は1つ以上の行動を選択する。ここで601によって被写体の特徴動作を指定することができる。
602は、プルダウン601で指定した人物の行動の発生位置のうち、利用者が要約の対象としたい領域を指定するためのコントロールである。表示された背景画像に対して、プルダウン601で指定した行動を取った時に、要約の対象としたい人物の、行動の検出範囲を利用者が塗りつぶすことで指定する。
図6の例では、手を伸ばしたことを検出したい棚を示すため、網掛けで示した領域を塗りつぶしている。この場合、人物が手を伸ばす行動を取り、かつその人物の手が網掛けで示した領域に入ったものが要約の対象となる。なお、領域を指定するために、例えばマウス等で所望の領域を囲むことによって領域を指定するようにしてもよい。
なお、領域の指定方法は行動の種類に応じて変更してもよい。例えば、「急に走り出した」ことが対象行動であれば、走り始めの足元の領域を指定し、「転倒した」ことが対象行動であれば、部位にかかわらず人物の最も下部の点が含まれる領域を指定する。また、領域を映像の全域として、画面のどこであっても、指定された行動を要約対象とするようにしても良い。
603は、利用者が要約の対象としたい人物の年代と性別に関する人物属性(被写体の属性)を指定するためのプルダウンコントロールである。また、604は、利用者が対象としたい人物の服装を指定するためのプルダウンコントロールである。これらは検出部202が検出可能な人物属性(種類)を選択肢として複数用意し、それらを列挙し、利用者はそれぞれ1つ以上の人物属性を指定する。上記のように603,604等は被写体の属性を指定する指定手段として機能している。
605は、出現頻度の低い「珍しい」行動を取った人物を要約の対象としたい場合に、その珍しさの程度の閾値を指定するためのスライダーバーである。利用者は例えば0から100までに正規化された「珍しさレベル」を指定する。利用者が明示的に指定した行動でなくとも、出現頻度の少ない行動を取った人物については注目したい、という用途で使用される。
606は、要約された映像に表示する人物の数を制限するための数値入力コントロールである。
607は、要約対象の行動ではない前後の部分をカットすることを支持するためのチェックボックスである。図4の例では、要約対象の行動を取る前の(C1)、(C2)および後の(C6)に相当する部分を、時間短縮のために、要約された映像から除去することを指示する。
601から607の各コントロールについては、それぞれチェックボックスが設けられており、有効(イネーブル)と無効(ディスエーブル)を切り替えることが出来る。利用者は希望する要約条件の表現のため、必要に応じてコントロールを有効化し、条件を組み合わせて指定する。
608は、複数のネットワークカメラが存在する場合に、その中の一つである例えばネットワークカメラ101を選択するためのプルダウンコントロールである。
なお、608では録画サーバ103等に記録された所定のカメラの録画映像を選択するようにしてもよいし、映像処理装置は撮像部を持たず、ネットワークや記憶メディアから与えられた映像ファイルに対して映像要約を行うようにしてもよい。或いは608では所定のカメラからのライブ映像を選択するようにしてもよい。
609は時間範囲を指定するための開始時間と終了時間の入力コントロールである。608と609の情報によって要約元映像が決定される。
利用者は、以上のコントロールを操作部211によって操作して、希望に応じた要約条件の指定を完了したら、要約開始ボタン610を押下する。押下されるとステップS501でその情報を受信し、ステップS502に進む。
ステップS502において、検出部202は、ステップS501で指定された要約元映像をカメラからのライブ映像または記憶部209から取得し、要約元映像の中からステップS501で指定された条件に合致する人物を検出する。即ち、所定の属性を有する被写体を検出する。
検出部202は、例えば非特許文献1に示されているような公知の物体認識技術を用いて対象となる人物が出現する映像中の時刻と位置を決定する。ここでは、ステップS501において、603のプルダウンで「成人男性」、604のプルダウンで「赤いジャケット」が指定されていたものとする。即ち、一般物体認識のカテゴリで「男性」「成人」「ジャケット」「赤い服」のスコアが高い物体を対象の人物とする。(非特許文献1:Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems. 2015.)
次に、ステップS503において、検出部202は、ステップS502で検出された要約元映像に含まれる人物の追尾を行う。すなわち、要約元映像に連続的に出現する人物の時間的な位置の変化を追尾する。即ち、検出部202は、検出された人体について、非特許文献2に示されているような公知の手法を用いて追尾を行い、検出された人物の数をn人とした場合、それぞれの人物の情報(人物情報)をH1、H2,…、Hnとする。ここで、ステップS503は所定の属性を有する被写体を追尾して検出する追尾手段として機能している。(非特許文献2:H. Grabner, M. Grabner, & H. Bischof: Real-time tracking via on-line boosting. In BMVC, 2006.)
人物情報Hi(1≦i≦n)は、その人物の追尾の開始時刻Bi、追尾終了までの時間長Liと、時刻t∈[Bi,Bi+Li]における人物の映像中の位置と大きさHi(t)から成る。ここではHi(t)は、要約元映像の時間範囲[Bi,Bi+Li]に含まれる映像フレームの、時刻tにおいて離散的に保持された、フレーム画像の座標における外接矩形の系列とする。なお、この追尾人物の表現は一例であり、Hi(t)として人体領域を示すマスク画像などを用いてもよいし、離散系列ではなく時刻tについての連続関数としてHi(t)を定めてもよい。
次に、ステップS504において、区間選択部203は、ステップS503で作成した人物情報H1、H2,…、Hnのそれぞれについて、時系列的に変化する特徴量を抽出する。ここでは、人物の関節位置と姿勢の情報を推定して特徴量とする。人物情報Hiについては、時間範囲[Bi,Bi+Li]に含まれるフレーム画像の時刻tについて、Hi(t)の矩形から切り抜いた映像の部分について、非特許文献3に示されているような公知技術を用いて、人物の姿勢をそれぞれ推定して特徴量とする。ここで、ステップS504は映像から時間的に変化する特徴量を抽出する特徴量抽出手段として機能している。(非特許文献3:Wei, Shih-En, et al. “Convolutional pose machines.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016)
次に、ステップS505において、区間選択部203は、人物情報H1、H2,…、Hnのそれぞれについて、ステップS504で抽出した特徴量に基づいて、要約対象の区間を選択する。ここではステップS501において、601のプルダウンで「手を伸ばす」行動が選択され、かつ605が有効とされて珍しさレベルの値にCが指定されたものとして、人物情報Hiの区間を判定する処理を説明する。
まず、人物情報Hiについて、手を伸ばした行動の区間を判定するため、フレーム時刻t∈[Bi,Bi+Li]についてHi(t)における特徴量から右手と左手の映像中の座標を取得し、602で指定した領域にいずれかが含まれているかどうかを判定する。含まれていれば1、含まれていなければ0とする結果の系列を作成し、例えば自身と前後各5フレームによる多数決などの平滑化を行う。平滑化の結果、例えば1が10回連続して続く時間の範囲をそれぞれ「手を伸ばした区間」として判定する。
なお、本実施例は手を伸ばした特徴動作に限定されるものではなく、上記はあくまで一例である。例えば、「座りこむ」動作であれば空間的な位置に関係なく、姿勢の脚の形状から判定してもよいし、「立ち入り禁止場所に立っている」であれば、単に人物の位置が指定された範囲にあるかどうかで判定してもよい。また、「苦しんでいる」であれば公知の表情認識の方法を用いて苦痛の表情かどうかを判定してもよい。或いはゴルフのスイング動作等が特徴動作である場合には、ゴルフクラブを持っているか(現在所持しているか)否かを特徴動作の判断の一部に用いてもよい。即ち、被写体の所持品に基づき特徴動作の判別を行ってもよい。
「傘を忘れて行った」ならば、一般物体認識の結果を用いて、人物の近傍に現れている物体から所持品状態を判定して、傘を所持している状態から所持していない状態に移行した後を忘れていった区間として判定することが出来る。このように、利用者が注目したい行動に応じて、好適な区間の判定方法を選ぶことが出来る。
次に、珍しい行動の区間を判定する。珍しい行動の検出は、例えば非特許文献4に示されているように、局所性鋭敏型ハッシュ(LSH)によって特徴動作が正常行動からの乖離度合いを判定するなどの公知の手法を用いる。LSHではハッシュ距離に基づくスコアを求め、それが閾値を上回った場合に珍しい行動、そうでない場合は正常であると判定する。(非特許文献4:ZHANG, Ying, et al. Video anomaly detection based on locality sensitive hashing filters. Pattern Recognition, 2016, 59: 302-311.)
閾値が高いほど検出されにくくなる、すなわち「珍しさレベル」が高い行動に絞って検出されるようになるので、605に指定された珍しさレベル値Cが高いほど閾値を高くなるようにする。
例えば、あらかじめ正常行動のスコアの最高値C0と珍しい行動のスコアの最高値C1を統計的に求めて保持しておく。
そして、C0+(C1-C0)×C/100をLSHの閾値として設定した上で、フレーム時刻t∈[Bi,Bi+Li]についてHi(t)における特徴量に基づいて珍しいか正常かを判定する。珍しい行動を1、正常を0とした結果の系列を作成し、手を伸ばした行動と同様に平滑化を行って「珍しい行動を取った区間」を判定する。
このようにして判定された「手を伸ばした区間」と「珍しい行動を取った区間」の全体を人物情報Hiの要約対象区間として決定する。
なお、ここで説明した方法は一例であり、例えば平滑化や連続の判定パラメータは別の値でもよいし、例えば要約元映像のFPSなどによって変更するようにしてもよい。また、結果の系列は0か1のバイナリ系列の代わりに、スコアなどから求めた実数値を取るようにして、閾値や極大性を用いて連続する区間を求めてもよい。
また、手を伸ばした行動の判定は手の映像中の位置による判定だけでなく、例えば距離画像によって商品棚と手のインタラクションを三次元的に判定するようにしてもよい。また、珍しい行動の判定方法はLSHに限らずベイズ判定やニューラルネットワークなど他の方法を用いて行ってもよい。
また、ステップS505で説明したように、本実施例は手を伸ばした行動に限定するものではなく、他の行動についても同様に行動を行った区間を求めることが出来る。要は、ステップS505では、被写体が、予め601や605で指定した特徴動作を行ったことを判定することができればよい。
次に、ステップS506において、要約部204は、ステップS505で判定された要約対象区間に基づいて、人物を選出する。人物情報H1、H2,…、Hnのうち、ステップS505で1つ以上の要約対象区間の判定を受けた人物を選択し、要約対象とする。要約対象に選択された人物情報をH’1、H’2、…、H’mとする。
ステップS501で、数値入力コントロール606で要約映像の最大人数を例えば200人に指定していた場合は、mが200以下となるように選択する。要約対象区間の判定のある人物が要約元映像に200人以上いれば、例えば、要約対象区間の長さが長い方から200人を選択してH’1、H’2、…、H’mとする。特徴量や珍しい行動のスコアに基づいて選択してもよい。
次に、ステップS507において、配置部205は、ステップS506において選出された要約対象の人物情報H’1、H’2、…、H’mの配置を決定する。具体的には、それぞれの人物の出現開始時刻T1、T2,…、Tmを決定し、人物情報H’iは要約映像の開始からT1秒後に出現するようにする。T1、T2,…、Tmの決定の方法は後述する。
次に、ステップS508において、映像合成部206は、ステップS507で決定された配置に基づいて、要約映像を合成する。
まず、要約元映像の人物が出現しない時刻のフレーム画像を1枚選んで背景画像とし、背景画像をコピーしてフレーム画像の系列を作成する。
人物情報Hiについて、要約元映像の人物情報Hiが出現する時間範囲[Bi,Bi+Li]の各フレームについて、背景差分や領域分割など公知の手法を用いて、人物の領域を切り抜きそれ以外の部分を透過した切り抜き画像の系列を生成する。
そして、背景画像の系列の、先頭から時間Tiだけ後に当たるフレームから開始して、順番に人物情報Hiの切り抜き画像を重畳する。これを人物情報H’1、H’2、…、H’mについてそれぞれ行う。ただし、ある人物の要約対象区間にあたるフレームでは、その人物の切り抜き画像は最後に重畳する。これは要約対象区間での人物の行動が隠れることを避けるためである。
重畳が完了したら、次は、ステップS501でチェックボックス607にチェックを入れていた場合は、対象となる行動以外のフレームを削除する。即ち、フレーム画像の系列のうち、最初と最後から数えて、人物の要約対象区間にあたるフレームが一つも重畳されていないフレームが連続する部分を削除する。余計な映像を削除することによって、視認性が向上する。
最後に、フレーム映像をMPEG4/H264などの動画形式でエンコードして要約映像を作成し、記憶部209に記録してフローを終了する。
利用者は、本フローの完了後にクライアント端末装置104を用いて記憶部209に記憶された要約映像を閲覧することができる。なお、エンコードが完了する前に利用者がまず閲覧できるように、ステップS508の進行中にフレーム映像をストリーミングで送信してもよい。
また、切り抜き映像の変わりに、特徴量を表現する模式的な画像、例えば関節を直線で結んだ骨格図や、人形やアバターのようなイラストを用いてもよい。
また、隠れを避ける方法として要約対象区間の人物を最後に重畳する方法を説明したが、他の方法を用いてもよい。一つには、人物の切り抜き画像にアルファチャンネルを加えて半透明の状態で描画するようにした上で、要約対象区間の人物についてはアルファチャンネルをゼロまたは相対的に低い値とする方法である。
さらに他の方法としては、要約対象区間の人物のみを切り抜き画像とし、他の重なった人物を、例えば骨格図として描画する方法である。いずれも、要約対象区間の人物を視認しやすくしつつ他の重なった人物の情報も部分的に視認できるようにして、利用者に与える情報を多くする効果がある。
以上のようにして、注目したい区間について、利用者の目的に応じた好適かつ視認性のよい要約映像を提供できる。なお、本フローでは利用者が映像を指定してから解析を行っているが、ライブ画像の録画と同時にバックグラウンドで解析を実行しておいて記憶部209に結果を保存しておき、要約映像の合成時に保存した結果を参照するようにしてもよい。
一部の時間のかかる処理をバックグラウンドで行い、軽量な処理や普段使われる頻度の低い条件に関する処理は利用者の指定を受けて行うように分離してもよい。また、解析サーバ102ですべての解析処理を行うのではなく、クラウドなどで外部の計算機に解析処理の一部または全部を委譲してもよい。
図7は実施例1における、ステップS507の処理の手順の詳細例を示すフローチャートであり、図7を用いてステップS507において配置部205がT1、T2,…、Tmを定める方法を説明する。
まず、ステップS701において、作業用の区間列Mを用意し、H’1の要約対象区間をコピーする。また、iの値を1、T1の値を0と定める。
次に、ステップS702においてiに1を加え、次のステップS703においてiがm以下であるかどうかを判定する。mはステップS506において要約部204が選出した人物の数である。iがm以下であればステップS704に進む。iがmより大きければ、ステップS704以下の処理によってT1、T2,…、Tmが既に全て定まっているので、これをステップS507の結果とした上で本フローを終了する。
ステップS704においては、Tiの値を、Mに含まれる最も時間的に最初の区間の終点と、H’iの最初の区間の始点の時刻の差に、バッファεを加えた値に定める。バッファεは、要約映像において続けて現れる要約対象区間同士の間に設ける緩衝である。バッファεは0でも構わないし、要約対象区間同士の始終端での重なりを許容するのであれば負の値にすることも可能であるが、ここでは例として正の値、たとえば0.3秒などにあらかじめ定めたものとして説明する。
以降のステップの説明の準備のため、H’iの要約対象区間のすべてを時間Tだけ進めたものを(H’i+T)と表わすと約束する。
ステップS704の次はステップS705に進み、jの値を1に定める。
次のステップS706においては、まず(H’i+Ti)のj番目の区間Sを取得する。そして、SがMに含まれる区間のいずれかと重なっているかどうかを、バッファを考慮して判定する。すなわち、Sとの重なりを判定するのは、Mに含まれる区間のそれぞれの開始時間と終了時間をバッファεだけ延長したものである。
Sとの重なりの範囲が、バッファで延長した部分のみに限られる場合についても、単に重なっていると判断することにする。以上のような判定によって、Sと重なっているMの区間があった場合は、ステップS707に進む。また、そのようなMの区間のうち時間的に最初のものをSMとする。SがどのMの区間とも重なっていなければ、ステップS707に進む。
ステップS707においては、まずSMの終点とSの始点の時間の差に、バッファε足したものを計算してUとする。そしてTiにUを加えて新たなTiの値とする。そしてステップS705に戻る。
ステップS708においては、jに1を加える。そして次にステップS709において、jがH’iに含まれる要約対象区間の個数#(H’i)以下であるかどうかを判定し、そうであればステップS706に戻る。jが#(H’i)よりも大きければ、ステップS710に進む。
ステップS710に進んだ場合は、すなわち(H’i+Ti)の全ての区間が、Mの区間のいずれとも(バッファを考慮しても)重なっていない場合である。Tiの値はここで確定される。
ステップS710においては、Mに(H’i+Ti)をマージして新たなMとする。すなわち、(H’i+Ti)の全ての区間のコピーをMに追加する。そしてステップS702に戻る。
図8は実施例1における、ステップS507の処理において区間列Mが変化する様子を説明する図である。図8(A)は、ステップS704の直前におけるMとH’iの状態の一例である。これらが図7のフローに従ってどのように変化するのかを説明する。
図8(B)は、ステップS704、ステップS705と進んだ際のMと(H’i+Ti)の様子を表わしている。Mの区間の前後の黒帯は長さεのバッファを表わす。Tiの値をステップS704の方法で定めると、(H’i+Ti)の最初の区間の始点は、Mの最初の区間の終点にバッファを加えた時刻と一致する。
ステップS706で、j=1のときのSである区間801はMのいずれとも重なっていないので、判定はNOとなり、ステップS708、ステップS709と進み、j=2となってステップS706に戻る。ステップS706でj=2のときのSである区間802は、Mの区間803と重なっているため、判定はYESとなり、ステップS707に進む。
ステップS707で計算されるU(説明のため以下U1と呼ぶ)は図示したとおり、区間802の始点と区間803(SM)の終点の差にεを加えたものである。
ステップS707でTiにU1を加えた際の様子が図8(C)である。TiがU1だけ増加したことによって、新しい(H’i+Ti)の区間802は、Mの区間803とバッファを加えた位置の直後に移動する。
それに伴って、他の(H’i+Ti)の区間もU1だけ先に進む。このとき、ステップS706の判定はj=1、j=2のときにNOとなるが、今度はj=3の時に区間804がMの区間805と重なり、ステップS706の判定がYESとなってステップS707に進む。ステップS707では区間804をS、区間805をSMとして再びUを計算する(このUをU2と呼ぶ)。
ステップS707でTiにU2を加えた際の様子が図8(D)である。新しい(H’i+Ti)の区間804は、Mの区間805とバッファを加えた位置の直後に移動し、他の(H’i+Ti)の区間もU2だけ先に進む。今度はMと(H’i+Ti)に重なり合う区間がなくなったため、ステップS706の判定はj=1、j=2、j=3のいずれでもNOとなり、ステップS710に進むようになる。ステップS710でH’iをマージされた新しいMが図8(E)である。区間に重なりがなく、間に長さε以上のバッファが確保されていることに注意されたい。
このようにして、図7のフローに従うと、人物情報H’1、H’2、…、H’mの要約対象区間同士が重なり合わないという条件の下で、最初の要約対象区間における出現順序を保存しつつ、要約対象区間がバッファを確保できる。その上で連続的に出現するような配置を決定できる。
以上のように、図7に示したフローに従って求められた配置のT1、T2,…、Tmを用いて要約映像が合成される。
なお、本フローは一例であって、目的に応じて他の配置探索方法を用いてもよい。たとえば出現順序の保存を必要とせず、要約映像がなるべく短くなるようにしたければ、H’1、H’2、…、H’mの重ね合わせを総当りで探索して最も短くなるものを選んでもよい。また、一人の人物が何度も行うことが考えにくいような頻度の低い行動であれば、要約対象区間は1人に付き1個までと仮定した上で単に要約対象区間を並べるなど簡略化してもよい。以上に説明した処理によって、視認性の高い要約映像を生成できる。このような視認性の高い要約映像を、防犯やマーケティングに有効な分析に活かすことも期待される。
実施例1では、注目する行動の区間を連続的に視認できることを目的とした要約映像を合成する方法を説明した。しかし、動作同士の比較を行いたい場合など、注目する行動を同時に表示する要約映像が有用な場合がある。
実施例2では、注目する行動の区間をなるべく同時に表示しつつ、重なりを避けて視認性のよい要約映像を合成する方法を説明する。即ち、本実施例では、複数の時間区間の映像が時間的または空間的に重なり合わないように前記配置を決定する。
なお、ここでは実施例1に対して追加または変更する部分について説明し、共通部分については説明を省略する。
図9は本発明の実施例2における、要約映像の一例を示す図であり、図9を用いて本実施例における映像処理装置の動作の一例について説明する。図9(A)は、本実施例における要約映像の内容を説明する模式図である。ここでは、フィギュアスケートの競技者がジャンプを行ったタイミングを揃えて表示し、各競技者のジャンプの出来栄えを比較する応用例を説明する。
図9(A)の被写体901、902,903は、それぞれ異なる時間に撮影部201のカメラの前で演技を行っており、破線で示した軌跡を描いて移動している。利用者は、プログラムで規定された特定のジャンプ種、たとえばアクセルジャンプについて、審美性を評価するため、被写体間でのジャンプの比較をしたい。そのために、本実施例を用いて、ジャンプが行われたタイミングが揃った要約映像を作成する。
図9(B)がこの要約映像のタイムラインであり、図9(A)は904のタイミングでの被写体901,902,903の様子を示している。本実施例では注目区間にはラベル付けがされており、904のタイミングでは「アクセルジャンプ」とラベル付けされた注目区間の先頭部分が揃うように、要約映像が合成される。
他のラベルにも「ジャンプコンビネーション」「ステップシークエンス」などのプログラムの規定動作のラベルが付与されており、利用者はラベルを選択しながら、各規定動作について被写体を揃えて比較しながら評価することが出来る。
以上のような要約映像を合成するための、本実施例の映像処理装置の動作フローを説明する。基本的には実施例1で説明した図5のフローと同様であるが、本実施例の特徴による差分を説明する。
本実施例のステップS501においては、利用者は要約対象とする行動を指示するが、例えば「フィギュアスケートのショートプログラム」の「アクセルジャンプ」のように、動作の集合と、その集合に含まれる動作種別の形で指示するようにする。クライアント端末装置104は動作の集合と動作種別を指示するためのコントロールを表示して、利用者はそれを操作して指示を行う。
本実施例のステップS505においては、区間選択部203はまずステップS501で指示された動作の集合に含まれる動作種別について、それぞれ区間を選択し、対応する動作種別のラベルを区間の情報に付与する。
図10は実施例2における、ステップS507の処理例を示すフローチャートであり、本実施例のステップS507について以下に説明する。
まず、ステップS1001において、ステップS506において選出された要約対象の人物ごとに、ステップS501で指示された要約対象の動作種別に対応する要約対象区間を、ラベルに基づいて選出する。以下の処理は、この選出された要約対象区間について行う。
次に、ステップS1002において、要約対象の人物ごとに、ステップS1001で選出された要約対象区間における、要約元映像での人物の位置を算出し、その位置に基づいて要約対象の人物のグルーピングを行う。具体的には、要約対象区間に相当するフレームにおける人物の外接矩形の中心の平均位置をそれぞれ算出して、所定の閾値よりも近い距離にある人物同士を同じグループにまとめるなどの方法によってグループを作成する。
以下、ステップS1003からステップS1007までは、ステップS1002で作成したグループのそれぞれについて行う。まずステップS1003で、まだ処理を行っていないグループを一つ選択する。
次に、ステップS1004において、ステップS1003で選択されたグループに含まれる要約対象の人物の数を判定する。1人ならば何もせずにステップS1007に進むが、2人から4人であればステップS1005,5人以上ならばステップS1006に進んでから、それぞれステップS1007に進む。
ステップS1005においては、ステップS1003で選択されたグループに含まれる要約対象の人物のそれぞれについて、重なりを避けるような平行移動のパラメータを求める。
図11は実施例2における、ステップS1005の処理について説明する図であり、図11(A)と(B)は、同じグループに属する要約対象の人物を表わす模式図である。矩形1101と1102は、図11(A)と(B)それぞれの人物の、「アクセルジャンプ」のラベルが付いた要約対象区間での、人物の外接矩形が移動する範囲を表わす。
図11(A)と(B)の人物は、同じ「アクセルジャンプ」の行動を空間的に近接した位置で行っているため、そのまま「アクセルジャンプ」を揃えて要約すると、要約映像で重なってしまい視認性を妨げる。そのため、図11(C)のように、人物をそれぞれ離れる方向に平行移動することで、重なりを避けるようにすることが本ステップの意図である。矩形1103と1104は、図11(A)と(B)の人物それぞれの平行移動後の外接矩形が移動する範囲であり、図示した矢印は移動ベクトルを表わす。後で映像合成部206は、ここで決定した移動ベクトルを用いて要約映像の合成を行う。
ステップS1006においては、選択されたグループに含まれる人物らを対象として、図7に示したフローに従った処理を行う。すなわち、実施例1におけるステップS507と同様であり、時間的にずらすことによって、要約対象区間の重なり合いを避ける方法を取る。ステップS1006はグループに5人以上いる場合の処理であり、これはステップS1005の平行移動の方法では人数が多すぎて重なりの解消が難しいと考えられるケースに限って実行される。
この場合は要約対象区間のタイミングを揃えることをあきらめて、その部分は要約映像で順番に表示するようにすることを意図している。
ステップS1007では、ステップS1005またはステップS1006の処理を行った、もしくは人数が1人のためステップS1004の後の処理を行わなかったグループがまだ残っているかどうかを判断して、残っていればステップS1003に戻る。全てのグループについて処理が完了していれば、ステップS1008に進む。
ステップS1008においては、要約対象区間を揃えるように出現開始時刻T1、T2,…、Tmを決定する。具体的には、ステップS1001で選出した要約対象区間の始点のうち、その人物の追尾開始時刻との時間差Diをそれぞれ計算して、最も大きいものDmaxを選び、Ti=Dmax-Diとして定める。
ただし、ステップS1006において図7に示したフローを経たグループがある場合は、最初の要約対象区間を持つ人物に限って上記の方法で出現開始時刻を求め、これをTbとする。そして、その他の同一グループの人物については、Ti=Tb+T’iとして定める。
ここでT’iはステップS1006で求めたグループの出現開始時刻である。以上の出現開始時刻を本実施例におけるステップS506の結果としてフローを終了する。
なお、位置をずらす処理を4人までに限定するのは一例であり、移動量を増やすなどして重なりを防いだ上で、位置ずらしで対応する人数を増やしてもよい。逆に、位置がずれることによる弊害があるならば、位置ずらしを行わずに重なったら必ず時間的にずらす(ステップS1004で2人以上と判定されたらすべてS1006に進む)ようにしてもよい。
この人数を利用者にステップS501で設定させるようにしてもよい。
本実施例のステップS508においては、映像合成部206は、ステップS507で決定された配置の情報として、出現開始時刻T1、T2,…、Tmに加えて、ステップS1005で決定された移動ベクトルを用いて、要約映像を合成する。移動ベクトルが与えられた人物については、全ての出現を移動ベクトルに沿って平行移動した上で重畳を行う。
以上のようにして、利用者が注目したい動作のタイミングを揃えた要約映像を作成することが出来る。
第1と実施例2では、被写体として人間を用い、人間の行動に注目した要約映像を合成する方法を説明したが、本実施例は人間以外の被写体についても適用することが出来る。
本実施例では、被写体として自動車を用いる方法を説明する。
図12は本発明の実施例3における、要約映像を説明する図であり、図12(A)は、撮影部201で自動車道路を撮影している例での、要約元映像の一つの時刻での模式図である。利用者は自動車道路を監視しており、1201のように蛇行したり、異常な高速走行をしたりするなどの無謀運転を行った自動車を観察するために、本実施例を用いて要約映像を閲覧したいものとする。
図12(B)は、図12(A)の要約元映像を要約した映像の一例を示す模式図である。
無謀運転を行った自動車1201が1204のように要約映像に表示されるのに加えて、自動車1201の無謀運転の近くに出現した自動車1202および1203についても、無謀運転の周辺への影響を評価するため要約映像に表示する。
ただし、自動車1202および1203は無謀運転を行っておらずペナルティの対象でないため、プライバシーに配慮して1205と1206のように要約元映像そのままではなくイラスト画像として表示するようにする。自動車1202および1203のイラスト1205と1206は、無謀運転の自動車1204との相対的な位置関係を保存して、要約元映像と同じタイミングに同期される。自動車1204と重ならない反対車線には別の無謀運転を行った自動車1207を同時に表示する。即ち、複数の時間区間の映像が時間的に同期するように前記配置を決定している。
以上のような要約映像を合成するための、本実施例の映像処理装置の動作フローを説明する。基本的には実施例2で説明した図5のフローと同様であるが、本実施例の特徴による差分を説明する。
本実施例のステップS502で、検出部202は、一般物体認識のカテゴリとして人体の代わりに自動車を検出して、本実施例のステップS503では自動車を対象に追尾を行う。
本実施例のステップS504では、区間選択部203は、ステップS503で検出した自動車について特徴量の抽出を行う。具体的には映像での位置、速度、加速度、躍度、およびヘッドランプ、テールランプ、ブレーキランプ、ウインカーの点灯状態、初心者マーク、高齢者マーク、障碍者マークの有無、車両種別を数値化したベクトル値を特徴量とする。これらの特徴は公知の物体認識の手法を用いて算出しても良いし、検出部202の一般物体認識の結果を用いてもよい。また、ここに挙げた特徴の種類は一例であり、他の有用な特徴の情報を加えることを妨げない。
本実施例のステップS505では、区間選択部203は、追尾対象の自動車ごとに要約対象の区間を判定する。ここでは実施例1で説明した、正常行動からの乖離を判定する方法で自動車が「珍しい行動」を取った区間を要約対象の区間とする。無謀運転はパターンが多様で予測モデルを作りにくいため、正常な直進走行や車線変更、追い抜きなどの日常的に出現する自動車の行動と区別する方法を取る。
なお、実施例1と同様に自動車の行動を直接判定する方法を取ることももちろん可能であり、例えば特定の位置で停車した、急加速や急減速した、右折禁止の場所で右折した、などの行動を監視したい場合はその行動を直接判定することが好適である場合もある。また、両方を併用してもよい。
本実施例のステップS506で、要約部204は、要約対象とする自動車を選出し、本実施例のステップS507で、配置部205は、自動車の配置を決定する。これは対象が人物の代わりに自動車である点を除いて、実施例2と同様である。
本実施例のステップS506で、映像合成部206は、要約映像を合成する。このとき、要約対象区間での映像を作成する際に、その要約対象区間に該当する自動車の画像に加えて、近傍に出現していた自動車について、プライバシー処理としてイラスト画像を生成した上で背景画像への重畳を行う。
イラスト画像はステップS504で抽出した特徴量の内容に基づいて、車両種別、ランプ類の点灯状態、速度感を表わす効果線などを反映した画像をテンプレートの組み合わせによって作成し、映像中の位置に応じて拡大・縮小を行う。イラストは要約対象区間の対象の自動車の切り抜き画像よりも前に重畳し、主要な興味の対象である要約対象区間の自動車よりも後ろに表示されるようにする。即ち、本実施例では複数の時間区間の映像の重畳方法を変更可能である。
なお、プライバシー処理の方法として、イラストをテンプレートで合成する代わりに3Dモデルで表現してもよいし、文字情報やワイヤフレームなど他の表現を用いてもよい。また、切り抜き画像を使った上で、ナンバープレートにぼかしを入れたり全体を影絵化したりするなどの方法でもよい。
また、要約対象となった自動車についても、例えば正常との乖離度が比較的低いなどの方法で無謀運転の程度の低さを判断し、程度が低ければプライバシー処理を加えるなどしてもよい。
以上のようにして、自動車の行動、例えば無謀運転についても本実施例を適用して要約映像を得ることが出来る。
以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
なお、本実施例における制御の一部または全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して映像処理装置に供給するようにしてもよい。そしてその映像処理装置におけるコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。
101 ネットワークカメラ
102 解析サーバ
103 録画サーバ
104 クライアント端末装置



Claims (14)

  1. 映像を取得する映像取得手段と、
    前記映像取得手段で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択手段と、
    前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成手段と、を有することを特徴とする映像処理装置。
  2. 前記区間選択手段は、前記映像取得手段で取得された映像から、所定の属性を有する複数の被写体のそれぞれについて前記所定の特徴動作を行う時間区間を選択することを特徴とする請求項1に記載の映像処理装置。
  3. 前記映像から前記所定の属性を有する被写体を追尾して検出する追尾手段をさらに有することを特徴とする請求項1または2に記載の映像処理装置。
  4. 前記映像から時間的に変化する特徴量を抽出する特徴量抽出手段をさらに備え、
    前記区間選択手段は、前記特徴量に基づいて前記時間区間を選択することを特徴とする請求項1~3のいずれか1項に記載の映像処理装置。
  5. 前記所定の属性を指定する指定手段を有することを特徴とする請求項1~4のいずれか1項に記載の映像処理装置。
  6. 前記区間選択手段は、前記特徴動作が正常かどうかを判定し、前記判定に基づいて前記時間区間を選択することを特徴とする請求項1~5のいずれか1項に記載の映像処理装置。
  7. 前記合成手段は、前記複数の時間区間の映像が空間的に重なり合わないように前記配置を決定することを特徴とする請求項1~6のいずれか1項に記載の映像処理装置。
  8. 前記合成手段は、前記複数の時間区間の映像が時間的に同期するように前記配置を決定することを特徴とする請求項1~6のいずれか1項に記載の映像処理装置。
  9. 前記合成手段は、前記複数の時間区間の映像として、画像、イラスト、3Dモデル、文字情報のうち、少なくとも1つを配置して表示することを特徴とする請求項1~8のいずれか1項に記載の映像処理装置。
  10. 前記合成手段は、前記複数の時間区間の映像の重畳方法を変更可能であることを特徴とする請求項1~9のいずれか1項に記載の映像処理装置。
  11. 前記区間選択手段は、前記所定の被写体の姿勢、動作、表情、所持品の少なくとも1つに基づいて前記時間区間を選択することを特徴とする請求項1~10のいずれか1項に記載の映像処理装置。
  12. 映像を取得する映像取得工程と、
    前記映像取得工程で取得された映像から、所定の被写体が所定の特徴動作を行った複数の時間区間を選択する区間選択工程と、
    前記区間選択手段で選択された前記複数の時間区間の映像を時間的に近づけて合成する合成工程と、を有することを特徴とする映像処理方法。
  13. 請求項1~11のいずれか1項に記載の前記映像処理装置の各手段をコンピュータにより制御するためのコンピュータプログラム。
  14. 請求項13に記載のコンピュータプログラムを記憶したコンピュータで読み取り可能な記憶媒体。

JP2020173769A 2020-10-15 2020-10-15 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体 Pending JP2022065293A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020173769A JP2022065293A (ja) 2020-10-15 2020-10-15 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体
US17/477,731 US20220121856A1 (en) 2020-10-15 2021-09-17 Video image processing apparatus, video image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020173769A JP2022065293A (ja) 2020-10-15 2020-10-15 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2022065293A true JP2022065293A (ja) 2022-04-27

Family

ID=81186281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020173769A Pending JP2022065293A (ja) 2020-10-15 2020-10-15 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体

Country Status (2)

Country Link
US (1) US20220121856A1 (ja)
JP (1) JP2022065293A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230053308A1 (en) * 2021-08-13 2023-02-16 At&T Intellectual Property I, L.P. Simulation of likenesses and mannerisms in extended reality environments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254626B2 (en) * 2006-12-22 2012-08-28 Fujifilm Corporation Output apparatus, output method and program for outputting a moving image including a synthesized image by superimposing images
AU2007345938B2 (en) * 2007-02-01 2011-11-10 Briefcam, Ltd. Method and system for video indexing and video synopsis
US8719687B2 (en) * 2011-12-23 2014-05-06 Hong Kong Applied Science And Technology Research Method for summarizing video and displaying the summary in three-dimensional scenes
KR102126453B1 (ko) * 2013-11-20 2020-06-24 삼성전자주식회사 전자 장치 및 전자 장치의 영상 처리 방법
US10424341B2 (en) * 2014-11-12 2019-09-24 Massachusetts Institute Of Technology Dynamic video summarization

Also Published As

Publication number Publication date
US20220121856A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
Bendali-Braham et al. Recent trends in crowd analysis: A review
US10979761B2 (en) Intelligent video interaction method
Wang et al. A survey on driver behavior analysis from in-vehicle cameras
US8614741B2 (en) Method and apparatus for intelligent and automatic sensor control using multimedia database system
JP4168940B2 (ja) 映像表示システム
US11676389B2 (en) Forensic video exploitation and analysis tools
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP6206857B1 (ja) 追跡支援装置、追跡支援システムおよび追跡支援方法
AU2010257454A1 (en) Summary view of video objects sharing common attributes
Borghi et al. Hands on the wheel: a dataset for driver hand detection and tracking
US11528512B2 (en) Adjacent content classification and targeting
US9286710B2 (en) Generating photo animations
JP2014096661A (ja) 動画撮影中において動画中の動体オブジェクトをリアルタイムに隠消するための方法、並びに、その動画撮影機器及び当該動画撮影機器のためのプログラム
Tawari et al. Attention estimation by simultaneous analysis of viewer and view
US20160065900A1 (en) Processing method and system for video playback
US20220189038A1 (en) Object tracking apparatus, control method, and program
JP6203188B2 (ja) 類似画像検索装置
Alt et al. Attention, please! comparing features for measuring audience attention towards pervasive displays
JP2022065293A (ja) 映像処理装置、映像処理方法、コンピュータプログラム及び記憶媒体
JP5776471B2 (ja) 画像表示システム
JP5850188B2 (ja) 画像表示システム
CN111274854A (zh) 一种人体动作识别方法和视觉增强处理系统
JP2016197345A (ja) 画像解析装置、画像解析方法、およびプログラム
Liu et al. Video key-frame extraction for smart phones
JP2019153908A (ja) 画像認証システム、画像認証方法および画像認証プログラム