JP2021064870A - 情報処理装置、情報処理システム、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2021064870A
JP2021064870A JP2019188340A JP2019188340A JP2021064870A JP 2021064870 A JP2021064870 A JP 2021064870A JP 2019188340 A JP2019188340 A JP 2019188340A JP 2019188340 A JP2019188340 A JP 2019188340A JP 2021064870 A JP2021064870 A JP 2021064870A
Authority
JP
Japan
Prior art keywords
information
object information
information processing
image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019188340A
Other languages
English (en)
Inventor
鈴木 裕
Yutaka Suzuki
裕 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019188340A priority Critical patent/JP2021064870A/ja
Priority to US17/067,437 priority patent/US11501534B2/en
Publication of JP2021064870A publication Critical patent/JP2021064870A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようにする。【解決手段】情報処理装置は、複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す1以上の物体情報を抽出する抽出手段と、前記抽出手段により抽出された1以上の物体情報を1つの背景画像上に集約してなる要約映像を生成する生成手段と、を有する。【選択図】図4

Description

本発明は、情報処理装置、情報処理システム、情報処理方法およびプログラムに関する。
近年、長時間にわたって録画した映像の利用が進んでいる。例えば、店舗や道路などに設置したネットワークカメラによって撮影された映像は、遠隔からの監視用途、防犯対策用途、店舗などの集客状況の分析のためのマーケティング用途など、各種の用途で用いられる。映像を後で利用するために、DVR(Digital Video Recorder)やNVR(Network Video Recorder)などの録画装置に映像を記録することも行われる。映像の中に含まれている人物や車などの物体のカウントや、ユーザが映像内に引いたラインを通過する物体の検知などを行える映像解析システムも知られている。
しかし、長時間にわたって録画すると、映像内に長時間にわたって動きや変化のない時間帯が含まれることも多くなる。そうすると、録画映像を確認するために多くの時間が必要になり、見逃しなどの問題が発生してしまう。
特許文献1には、元の映像では異なる時間に表示されていた動く対象物を同時に表示することにより、元の映像を短時間に要約する技術が開示されている。これによれば、録画映像内の動くもののみを短時間で確認できるので、対象物を見逃してしまう可能性を低減することができる。
特許第4972095号
ところで、ホテルの各階に撮像装置が設置されている場合など、複数の撮像装置のそれぞれにより撮影された複数の映像の確認が必要な場合がある。そのような場合、特許文献1に記載の技術では1台分ずつ要約映像を確認することになるため、要約映像を用いても確認完了までに時間がかかってしまう。
本発明はこのような課題に鑑みてなされたものであり、その目的は、複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようにすることにある。
本発明の1つの態様による情報処理装置は、映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す1以上の物体情報を抽出する抽出手段と、前記抽出手段により抽出された1以上の物体情報を1つの背景画像上に集約してなる要約映像を生成する生成手段と、を有する。
本発明によれば、複数の撮像装置のそれぞれにより撮影された複数の映像を迅速に確認できるようになる。
本発明の第1の実施形態による要約映像生成システムの構成図である。 要約映像生成システムの使用例を示すイメージ図である。 端末のハードウェア構成の一例を示す図である。 図3に示したCPUによって実現される端末の機能を示す機能ブロック図である。 背景画像抽出部により抽出された背景画像の例を示す図である。 本発明の第1の実施形態による端末の処理を示すフローチャートである。 (a)〜(c)はそれぞれ、図6の処理を行った結果として生成される要約映像の例を示す図である。 重なり領域を説明する図である。 (a)(b)はそれぞれ、図6の処理の例を示す図である。 要約映像における全物体情報配列図を示す図である。 本発明の第2の実施形態による端末の処理を示すフローチャートである。 左側の図は、図8に示した元映像をまとめて表示する要約映像を示す図であり、右側の図は、図8に示した元映像の単独での要約映像を示す図である。 左側の図は、図10と同じ全物体情報配列図を示す図であり、右側の図は、図12右側の図に示した要約映像における全物体情報配列図を示す図である。
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
[第1の実施形態]
図1は、本発明の第1の実施形態による要約映像生成システム1のシステム構成図である。図1に示すように、要約映像生成システム1は、撮像装置101〜103と、端末105と、ストレージ106とがネットワーク(IPネットワーク網)104を介して接続された構成を有している。撮像装置101〜103は、例えば、ネットワークカメラである。端末105は所定の情報を処理する装置であるので、情報処理装置と称してもよい。
撮像装置101〜103は、ホテルや電車などの天井などに設置され、継続的に撮影を行うことによって、長時間の映像(音声データを含む)を取得する装置である。撮像装置101〜103はそれぞれ、撮像して得た解析処理の対象となるオリジナルの映像(以下、「元映像」と称する)を、ネットワーク104経由で端末105に送信する。
端末105は、撮像装置101〜103からの元映像や各種情報を表示するとともに、撮像装置101〜103を遠隔操作するための装置である。端末105は、例えば、パーソナルコンピュータである。パーソナルコンピュータは、汎用コンピュータの一例であり、以下の記載においてPCと称される場合がある。端末105は、ネットワーク104を介して撮像装置101〜103から元映像を受信し、表示する機能を有する。また、端末105は、撮像装置101〜103に対して各種コマンドを発行する機能を有する。
ストレージ106は、撮像装置101〜103が撮影した元映像や各種設定値などを格納する記憶装置である。ストレージ106は、上述したDVRやNVRなどの録画装置であってもよい。また、ストレージ106は、撮像装置101〜103からの映像以外に、図示しない外部装置からの取得画像なども格納していてもよい。ここでいう外部装置には、他の端末の他、SD(Secure Digital)メモリカードやDVD(Digital Versatile Disc)などの可搬記憶媒体などが含まれる。
なお、図1には、3つの撮像装置101〜103と、1つの端末105、1つのストレージ106を図示しているが、これらの数に特に制限はない。また、端末105とストレージ106とは、ネットワーク104経由ではなく、USB(Universal Serial Bus)接続などの物理的な接続によって接続されていてもよい。さらに、ストレージ106は端末105に内蔵されてもよい。
図2は、要約映像生成システム1の使用例を示すイメージ図である。図2の例では、撮像装置101〜103はそれぞれ、同一のホテル201の1F〜3Fの各廊下に設置されている。図示した映像202〜204はそれぞれ、撮像装置101〜103により撮影された元映像を示す。図2から理解されるように、元映像202〜204に映り込んでいる背景は、照明や装飾などの微妙な違いはあるものの、概ね共通している。
なお、図2にはホテルの例を示しているが、このように各撮像装置で撮影された元映像の背景が似たものになるシーンはホテルに限ったことではない。一例を挙げると、電車の各車両に設置される複数の撮像装置においても、同様の元映像が撮影される。
図3は、端末105のハードウェア構成の一例を示す図である。図3に示すように、端末105は、CPU(Central Processing Unit)301と、入力部302と、表示部303と、メモリ304と、デジタルインターフェース部(I/F)305と、通信端子306とを有して構成される。
CPU301は、端末105の各構成要素を統括的に制御する中央処理装置である。また、CPU301は、メモリ304に記憶されたプログラムを実行する。CPU301は、ハードウェアを用いて制御を行うこととしてもよい。
メモリ304は、CPU301が実行するプログラムの格納領域、プログラム実行中のワーク領域、データの格納領域として使用される記憶装置である。
入力部302は、ユーザによる入力操作を受け付ける機能部であり、ボタン、十字キ―、タッチパネル、マウスなどの各種入力装置を含み得る。
入力部302が受け付ける入力操作には、撮像装置101〜103に対する各種コマンドの送信指示の入力操作が含まれる。入力部302は、この入力操作を受け付けると、CPU301にその旨を通知する。CPU301は、この通知に応じて、撮像装置101〜103に対する命令などを生成する。その後、CPU301は、I/F305に指示し、生成した命令を撮像装置101〜103などに送信させる。
また、入力部302は、CPU301がメモリ304に記憶されたプログラムを実行することにより生成されるユーザへの問い合わせメッセージ等に対するユーザの応答の入力を受け付ける処理も行う。
表示部303は、CPU301の処理結果を表示する機能部である。具体的には、液晶表示装置、プラズマディスプレイ表示装置、ブラウン管などの陰極線管表示装置(CRT)などの表示装置であってよい。CPU301がユーザへの問い合わせメッセージを生成した場合、表示部303は、当該メッセージを表示することにより当該メッセージをユーザに伝達する役割を果たす。
I/F305は、CPU301の指示を受け、通信端子306経由で、撮像装置101〜103にコマンド等を送信する機能部である。I/F305は、通信端子306経由で、撮像装置101〜103から、コマンドに対するレスポンスや、ストリーミング配信された元映像を受信する処理も行う。I/F305により受信された元映像は、CPU301に供給される。CPU301は、I/F305から供給された元映像を復号し且つ伸長し、表示部303に供給する。表示部303は、CPU301から供給された元映像を表示する。
通信端子306は、LANケーブルが接続されるLAN端子などによって構成される。 以上、本実施形態における端末105のハードウェア構成について説明したが、図3に示すハードウェア構成は、本実施形態における端末105の好適な例を説明したものであり、ハードウェア構成は図3の構成に限定されない。例えば、音声入力部や音声出力部を備えるなど、本発明の要旨の範囲内で、種々の変形及び変更が可能である。
図4は、図3に示したCPU301によって実現される端末105の機能を示す機能ブロック図である。以下、この図4を参照しながら、本実施形態による要約映像生成のための端末105の機能を詳細に説明する。なお、図4には要約映像生成に関わる機能ブロックを中心として記載しており、端末105のその他の機能に関しては、図示した構成に限定されない。
図4に示すように、端末105は機能的に、映像処理部401と、制御部410と、演算部411とを有して構成される。映像処理部401は、入力映像から要約映像を生成するまでの処理を行う機能部である。映像処理部401は、映像取得部402、背景画像抽出部403、物体抽出部404、付加データ生成部405、第1の記憶部406、配列処理部407、要約生成部408、および第2の記憶部409を含んで構成される。
制御部410および演算部411は、端末105の内部に構成されているメモリ304(図3を参照)に保存されたプログラムデータからの命令や演算処理を行う機能部である。より具体的に説明すると、制御部410は、CPU301の外部メモリに記憶されるプログラムデータに含まれる命令の映像処理部401への送付や、映像処理部401からの指示をCPU301の外部へ送付するなどの制御を行う。演算部411は、制御部410から与えられた命令に従い、各種演算処理や画像の比較処理などを行う。これにより、端末105においては、撮像装置101〜103の制御や、表示部303を見ながら画面上で様々な指示を行うことが可能になる。また、制御部410は、映像処理部401によって生成された要約映像を再生する処理も行う。
映像取得部402は、撮像装置101〜103から元映像を取得し、元映像を構成するフレームごとに解析を行えるように、その動画形式を判定する処理を行う。映像取得部402はまた、必要に応じて動画形式の変換も行う。
背景画像抽出部403は、映像取得部402が取得した複数の元映像のそれぞれから背景画像を抽出する処理を行う。一例では、物体のないシーンを事前に撮像装置101〜103のそれぞれにより撮影しておき、その結果として得られた映像を、撮像装置101〜103のそれぞれと対応付けて第1の記憶部406に格納しておいてもよい。その後、物体が検出されなかった領域を抽出し、部分的に更新する処理が行われてもよい。
図5は、背景画像抽出部403により抽出された背景画像の例を示す図である。図5に示す背景画像601〜603はそれぞれ、図2に示した元映像202〜204から抽出された背景画像である。
背景画像抽出部403はさらに、複数の撮像装置101〜103のそれぞれについて取得した複数の背景画像を重ね合わせて類似度の判定を行う。判定の結果、類似度が所定の閾値以上であった場合、背景画像抽出部403は、撮像装置101〜103からの元映像を同じ背景画像上に要約できると判定する。そして、抽出した複数の背景画像の中から要約映像の背景画像とするものを選択し、第1の記憶部406に格納する処理を行う。この処理の詳細については後述する。一方、類似度が所定の閾値未満であった場合、背景画像抽出部403は、撮像装置101〜103からの元映像を同じ背景画像上に要約できないと判定する。そして、抽出した複数の背景画像のそれぞれを第1の記憶部406に格納する。
物体抽出部404は、映像取得部402が取得した複数の元映像のそれぞれから、それぞれ物体の軌跡を示す1以上の物体情報を抽出し、第1の記憶部406に格納する処理を行う。一例では、この物体の抽出は、背景差分方法、あるいは人体検出方法などの公知の方を用いて行われる。物体抽出部404は、こうして抽出した画素の領域の中心を物体の座標とし、画素の領域を物体の範囲とする。物体情報は、具体的には、抽出した物体の座標(x,y)及び範囲の時系列情報によって構成される。また、物体抽出部404は、検出した物体がどのフレームから発生してどのフレームで消失したかの情報(開始時刻及び継続時間)も、併せて第1の記憶部406に格納する。
なお、物体抽出部404による抽出は、特許文献1に記載の技術を用いても実行され得る。これらの他にも、物体を抽出できる抽出方法であれば、どのような方法を用いてもよい。
付加データ生成部405は、メタデータの一つとして、物体抽出部404により抽出された物体がどの撮像装置で取得されたものかを把握できるように、撮像装置の識別情報を物体情報に付加する。なお、撮像装置の識別情報としては、撮像装置のIPアドレス、識別番号、カメラ名称などが想定される。この撮像装置の識別情報を用いて物体を表示する際に重畳させるタイムスタンプ又は後述する検出枠の色が決定される。撮影した撮像装置と物体とを要約映像内で結びつけることのできる情報であれば、どのような情報でも撮像装置の識別情報として利用できる。
第1の記憶部406は、背景画像抽出部403によって格納された1つ又は複数の背景画像と、物体抽出部404によって格納された1以上の物体情報とを記憶する。これにより第1の記憶部406は、以下で説明する各機能を実現する際に必要となる情報の格納領域としての役割を果たす。
配列処理部407は、物体抽出部404で抽出された1以上の物体情報を一度すべて時系列順に配列する処理を行う。この処理を行うのは、仮に各撮像装置から抽出された物体情報を1つの映像に重ね合わせたとすると、同じタイミングかつ同じ座標に物体が重なって表示されてしまう状況が発生する可能性があるためである。配列処理部407は、こうした状況の発生の有無を把握するために、特許文献1に記載の技術などを用いて、全物体情報を時系列順にまとめて配列する。そして、各物体情報が重なって表示されることのないように、各物体情報の開始時刻をずらして再配列する処理を行う。この再配列処理の詳細については、後述する。
ここで、第1の記憶部406は、座標情報、時間情報(滞在時間)、撮像装置情報をまとめてなるテーブルとして、各物体情報を記憶することとしてもよい。
要約生成部408は、配列処理部407により生成された配列(配列処理部407による処理後の1以上の物体情報)と、背景画像抽出部403により第1の記憶部406に格納された背景画像とに基づき、元映像の要約処理を行う。詳しくは後述するが、この要約処理により、各撮像装置から抽出された1以上の物体情報を1つの背景画像上に集約してなる要約映像が生成される。要約生成部408は、要約映像内に配置した各物体情報に、対応する撮像装置を識別するための情報(上述した色情報など)を付加させる処理も行う。
要約生成部408は、生成した要約映像を一旦、第2の記憶部409に格納する。こうして第2の記憶部409に格納された要約映像は表示領域への展開を待機する状態となり、ユーザの指示に応じて、制御部410により再生される。
次に、図6に示すフローチャートを用いて、図4も参照しながら、複数の撮像装置からの複数の元映像に基づいて1つの要約映像を生成するための処理の流れを具体的に説明する。なお、本実施形態では、複数の撮像装置からの物体情報それぞれの空間的な位置は動かすことなく、対象物が出現する時間的な順序を元映像から変更することにより要約映像を生成する。
配列処理部407は、複数の撮像装置から抽出されたすべての物体の動作軌跡の間で最も衝突が少なく、再生時間が短くなるように、要約映像における各動作軌跡の開始時刻を求める。
ここで、物体の動作軌跡間の衝突について説明する。配列処理部407は、以下の式(1)を用いて、対象物i,j間の衝突コストColij(k)を算出する。ただし、kは対象物i,jの開始時刻の時間差であり、x ,y はそれぞれ時刻tにおける対象物iの中心のx座標及びy座標であり、r は時刻tにおける対象物iの半径である。また、Tij(k)は、開始時刻の時間差がkであるとしたときに、対象物i,jの両方の動作軌跡が映像中に現れる期間を表している。さらに、式(1)右辺の絶対値記号内側の数式は、対象物i,jの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。したがって、衝突コストColij(k)は、値が大きいほど、対象物i,jが衝突するフレームの数が多いことを表す。
Figure 2021064870
配列処理部407は、対象物の全ての組み合わせにおいて衝突コストColij(k)が最小になる開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。
したがって、配列処理部407は、シミュレーテッドアニーリング法を用いて各対象物の開始時刻を求めることにより、要約映像における最適な各対象物の開始時刻を求めることができる。配列処理部407は、このようにして元映像に対して対象物の空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出した対象物の画像を、算出した開始時刻を基に張り付けていくことによって、要約映像が生成される。
図6は、本実施形態による端末105の処理を示すフローチャートである。図6に示すように、端末105はまず初めに、映像取得部402により、各撮像装置から元映像を取得する(S101)。なお、ここでは各撮像装置から元映像を取得することとしているが、外部のメモリやストレージに格納された映像を元映像として取得することとしてもよい。
次に端末105は、物体抽出部404により、取得した各元映像から上述した物体情報の抽出を行い(S102)、第1の記憶部406へ格納する。
次に端末105は、背景画像抽出部403により、各撮像装置で撮影された元映像のそれぞれから背景画像を抽出し、抽出した複数の背景画像の中から要約映像の背景画像とするものを選択する処理を行う(S103)。
この選択は、一例では、(i)物体情報の抽出数が最も多かった撮像装置の背景画像を選択する、又は、(ii)物体情報の抽出数が最も少なかった撮像装置の背景画像を選択する、という2通りの選択方法のうちのいずれかを用いて実行される。前者の選択方法を用いる場合、撮像装置間での背景のずれが大きかった場合の影響を最小にすることが可能になる。後者の選択方法を用いる場合、物体によって背景画像の更新頻度が高くなるので、背景画像の正確性を上げることが可能になる。
また、背景画像としては静止画像を用いることを基本とするが、背景画像抽出部403は、元映像が撮影された時間帯ごとに、異なる静止画像を選択することとしてもよい。こうすることで、日中と夜間における環境光の変化などにも適切に対応することが可能になる。
次に端末105は、付加データ生成部405により、要約映像内に表示する物体情報の外縁(検出枠)又は物体情報に重畳して表示するタイムスタンプ(時間情報)に、撮像装置の識別情報(色、数字、文字など)を付加する処理を行う(S104)。これは、要約映像を見たユーザが各物体を撮像した撮像装置を把握できるようにするための処理である。
図7(a)〜(c)はそれぞれ、S104の処理を行った結果として生成される要約映像の例を示す図である。なお、図7(a)〜(c)は、背景画像として、図5に示した背景画像603が選択された場合を示している。
図7(a)は、検出枠に色を付加した例を示す。ただし、特許図面では有彩色を使えないので、代替表記として図7(a)では、線の種類の違いにより着色する色の違いを表している。具体的には、1階の撮像装置101(図2を参照)で撮影された物体702の検出枠を破線で表している。また、2階の撮像装置102で撮影された物体703の検出枠を長破線で表し、3階の撮像装置103で撮影された物体704の検出枠を実線で表している。
図7(b)は、タイムスタンプに色を付加した例を示す。この例では、1階の撮像装置101で撮影された物体702のタイムスタンプ「12:30」を赤色の字で表している。また、2階の撮像装置102で撮影された物体703のタイムスタンプ「10:03」を緑色の字で表し、3階の撮像装置103で撮影された物体704のタイムスタンプ「20:15」を黄色の字で表している。
図7(c)は、タイムスタンプに文字情報を付加した例を示す。この例では、1階の撮像装置101で撮影された物体702のタイムスタンプ「12:30」に「_1F」の文字を付加している。また、2階の撮像装置102で撮影された物体703のタイムスタンプ「10:03」に「_2F」の文字を付加し、3階の撮像装置103で撮影された物体704のタイムスタンプ「20:15」に「_3F」の文字を付加している。
次に端末105は、配列処理部407により、物体抽出部404で抽出された1以上の物体情報を一度、時系列順に配列する(S105)。具体的には、第1の記憶部406に格納された全物体情報を配列して、解析を行っていく。
さらに端末105は、配列処理部407により、S105で配列した物体情報から、要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域を検出する(S106)。この処理を行うのは、複数の撮像装置のそれぞれで撮影された物体を1つの要約映像に表示するため、同時間に同じ座標に物体が存在することが想定されるからである。
図8は、重なり領域を説明する図である。図8上段には、撮像装置101〜103のそれぞれで撮影された元映像202〜204を示している。図8に示すように、元映像202〜204には物体801〜807が含まれている。また、図8上段の各図においては、物体801〜807の後方に、それぞれの軌跡を記している。ここで、撮像装置101で撮影された物体801〜803の軌跡を長破線で、撮像装置102で撮影された物体804,805を破線で、撮像装置103で撮影された物体806,807を実線でそれぞれ記している。
図8下段には、横軸を座標軸x、縦軸を時間軸tとする全物体情報配列図808を示している。そして、全物体情報配列図808の中には、上段の各図に示した軌跡を記している。全物体情報配列図808内に示した軌跡のうち、軌跡809は物体804の軌跡を示し、軌跡810は物体802の軌跡を示している。図8から、2つの軌跡809,810が同時間帯に重なっていることが理解される。
配列処理部407は、重なり領域が検出された場合、重なり領域が解消されるように少なくとも一方の開始時刻をずらして再配列する処理を行う(S107)。この処理は前述のとおりである。
図9(a)(b)はそれぞれ、S107の処理の例を示す図である。図9(a)(b)内の符号808〜810の意味は、図8下段に示した図における意味と同じである。
図9(a)は、重なって表示されることになる2つの物体情報を最短時間で表示する例である。この場合、配列処理部407は、重なって表示されることになる2つの物体情報のいずれか一方の開始時刻を他方の終了直後の時刻に合わせて修正する。図9(a)の例では、軌跡810の開始時刻が、軌跡809の終了直後の時刻となるように修正されている。なお、この場合における物体情報の順番(要約映像内における表示順)は、撮像装置の管理番号の早い順とすることが好ましい。
図9(b)は、同一の撮像装置で撮影された複数の物体情報を時間的に重複させて表示する例である。この場合、配列処理部407は、例えばユーザによって指定された撮像装置からの複数の物体情報ができるだけ同じタイミングで表示されることとなるように、重なっている2つの物体情報のいずれか少なくとも一方の開始時刻を修正する。図9(b)の例では、軌跡810の開始時刻が、軌跡810と撮像装置102で撮影された他の物体の軌跡とが同じタイミングで表示されることとなるよう、修正されている。
なお、このように開始時刻をずらすのではなく、重なっている2つの物体情報の一方をポップアップ表示やサムネイル表示することとしてもよい。具体的には、重なって表示されることになる2つの物体情報のいずれか一方に対し、配列処理部407によって所定のフラグ情報を付加すればよい。そして、このフラグ情報が付加されている物体情報については、制御部410が要約映像の再生を行う際に、ポップアップ表示やサムネイル表示とすればよい。なお、ポップアップ表示やサムネイル表示ではなく背景画像内に通常どおり表示する物体情報としては、背景画像と同じ撮像装置からの物体情報を選択することが好ましい。
また、要約映像内における物体の密集度に応じて、複数の撮像装置からの物体情報を1つの要約映像内に集約するか否かの判断を行うこととしてもよい。例えば、複数の撮像装置からの物体情報を1つの要約映像内に集めて表示した場合に、物体の占める面積が画面の所定割合(一例では60%)を超えてしまう場合がある。このような場合には、そもそも1つの要約映像にまとめるのではなく、撮像装置ごとに個別の要約映像を生成することとしてもよい。
次に、要約生成部408により、配列処理部407により生成された配列(S107の処理を経たもの)に基づいて、S102で抽出した1以上の物体情報を1つの背景画像上に集約してなる要約映像の生成を行う(S108)。
図10は、要約映像における全物体情報配列図1001を示す図である。全物体情報配列図1001は、図9(a)又は図9(b)に示した全物体情報配列図808に基づいて生成されたものである。
図10から理解されるように、要約処理は、各物体情報の開始時刻を、他の物体情報と重ならない範囲で変更する処理となる。こうすることで、各物体情報が重ならない範囲で、映像の再生時間を極力短くすることが可能になる。なお、一部他の物体情報と重なるまで移動させた方が多くの要約効果を見込める場合には、重なった部分の間引き処理(フレームの削除)を行うこととしてもよい。
また、要約生成部408は、撮影された撮像装置ごとに物体情報をまとめて、要約映像内に配置することとしてもよい。
最後に、端末105は、制御部410により要約映像を再生して(S109)、複数の撮像装置からの元映像を要約映像とする一連の処理を終了する。
以上説明したように、本実施形態による要約映像生成システム1によれば、複数の撮像装置のそれぞれにより撮影された複数の元映像を1つの要約映像にまとめて再生することができるので、各映像の確認を、従来よりも短時間で終えることが可能になる。
[第2の実施形態]
第2の実施形態における撮像装置の構成について、第1の実施形態に示すものと同等箇所についての説明は省略する。上述した第1の実施形態では、複数の撮像装置からの複数の元映像を1つの要約映像に要約する構成を説明したが、第2の実施形態では、要約映像の再生の途中で物体が選択された際の処理を説明する。
図11は、本実施形態による端末105の処理を示すフローチャートである。以下、図11を参照しながら、複数の撮像装置からの複数の元映像に基づいて生成した要約映像を再生中に、ユーザが物体を選択した際の端末105の具体的な動作を説明する。なお、図11のS101〜S109については、図5で示したS101〜S109と同様のため、説明を省略する。
S109で要約映像の再生中、制御部410は、ユーザによる物体情報の選択指示操作を受け付ける(S201)。この選択指示操作は、要約映像が表示されているモニタを見ているユーザがマウスにより行うものであってよい。ユーザにより選択指示操作がなされた場合、制御部410は、再生する映像を、選択された物体情報を撮影した撮像装置の元映像の単独での要約映像に切り替える(S202)。一方、選択指示操作がなされないまま要約映像の再生が終了した場合には、制御部410は、S202を実行することなく処理を終了する。
図12左側の図は、図8に示した元映像202〜204をまとめて表示する要約映像205を示す図であり、図12右側の図は、図8に示した元映像202の単独での要約映像206を示す図である。図12左側の図の要約映像205においてユーザが物体803(黒枠で囲ったもの)を選択したとすると、端末105は、図12右側の図に示すように、物体803を撮影した撮像装置101で撮影された元映像202のみを要約して再生する。
図13左側の図は、図10と同じ全物体情報配列図1001を示す図であり、図13右側の図は、図12右側の図に示した要約映像206における全物体情報配列図1304を示す図である。なお、図13に示す軌跡1301,1302はそれぞれ、物体803,806の軌跡である。図13から理解されるように、撮像装置101で撮影された元映像202のみを要約して再生する場合、元映像202〜204をまとめて表示する要約映像205に比べて短時間で再生が終了する場合がある(全物体情報配列図1304は全物体情報配列図1101より小さい)。
なお、図示していないが、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体にかかる複数の物体情報を集約してなる要約映像を再生してもよい。或いは、該物体を撮影した複数の撮像装置それぞれで撮影された元映像の単独での要約映像を順次切り替えて再生してもよい。
以上説明したように、本実施形態による要約映像生成システム1によれば、ユーザは、複数の元映像に含まれる物体を集約してなる要約映像を確認している間に特に確認したい物体を見つけた場合に、当該物体を詳細に確認することが可能になる。
なお、物体を選択しなくても、複数の元映像に含まれる物体を集約してなる要約映像と、各撮像装置の元映像の単独での要約映像とを切り替えられるようにしてもよい。
[その他の実施形態]
以上、本発明の実施形態を図面に基づいて詳述してきたが、本発明はこれらの特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。
一例を挙げると、電車内などの移物体内で撮影された映像の要約映像においては、GPS(Global Positioning System)などの位置情報システムを用いて撮影位置の情報を取得することとしてもよい。そして、取得した撮影位置の情報を、上述したメタデータの1つとして物体情報に付加することとしてもよい。こうすることで、どの駅で撮影された物体であるかなどの位置に関する情報を、色や文字などを用いて要約映像内の各物体に付加することが可能になる。
なお、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、本発明は、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
1…要約映像生成システム、101〜103…撮像装置、202〜204…元映像、205,206…要約映像、404…物体抽出部、408…要約生成部

Claims (19)

  1. 映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理装置において、
    複数の撮像装置のそれぞれで撮影された複数の映像を取得する取得手段と、
    前記取得手段により取得された前記複数の映像のそれぞれから、それぞれ物体の軌跡を示す1以上の物体情報を抽出する抽出手段と、
    前記抽出手段により抽出された物体情報に基づいて物体を1つの背景画像上に集約してなる要約映像を生成する生成手段と、
    を有することを特徴とする情報処理装置。
  2. 前記生成手段は、前記1以上の物体情報それぞれの開始時刻を他の物体情報と重ならない範囲で変更することにより、前記要約映像を生成する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記背景画像は、前記抽出手段による物体情報の抽出数が最も多かった撮像装置で撮影された画像である、
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記背景画像は、前記抽出手段による物体情報の抽出数が最も少なかった撮像装置で撮影された画像である、
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記取得手段は、背景画像どうしの類似度が高い複数の撮像装置から映像を取得する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記要約映像内に表示する物体情報の外縁に、撮像装置の識別情報を付加する付加手段、
    をさらに有することを特徴とする請求項1に記載の情報処理装置。
  7. 前記要約映像内に物体情報と重畳して表示する時間情報に、撮像装置の識別情報を付加する付加手段、
    をさらに有することを特徴とする請求項1に記載の情報処理装置。
  8. 前記識別情報は、撮像装置ごとに異なる色である、
    ことを特徴とする請求項6又は7に記載の情報処理装置。
  9. 前記識別情報は、撮像装置ごとに異なる数字を含む、
    ことを特徴とする請求項6又は7に記載の情報処理装置。
  10. 前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、該重なり領域が解消されるように前記1以上の物体情報のうちの少なくとも1つの開始時刻をずらす処理を行う処理手段、をさらに有し、
    前記処理手段は、重なって表示されることになる2つの物体情報のいずれか一方の開始時刻を他方の終了直後の時刻に合わせて修正する、
    ことを特徴とする請求項1に記載の情報処理装置。
  11. 前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、該重なり領域が解消されるように前記1以上の物体情報のうちの少なくとも1つの開始時刻をずらす処理を行う処理手段、をさらに有し、
    前記処理手段は、同じ撮像装置からの複数の物体情報が同じタイミングで表示されることとなるように、重なって表示されることになる2つの物体情報のいずれか一方の開始時刻を修正する、
    ことを特徴とする請求項1に記載の情報処理装置。
  12. 前記要約映像内において同じタイミングかつ同じ座標に複数の物体情報が重なって表示されることになる重なり領域が検出された場合、重なって表示されることになる2つの物体情報のいずれか一方に対して所定のフラグ情報を付加する付加手段と、
    前記要約映像を再生する再生手段と、をさらに有し、
    前記再生手段は、前記所定のフラグ情報が付加されていない物体情報については要約映像内に表示する一方、前記所定のフラグ情報が付加されている物体情報についてはポップアップ表示を行う、
    ことを特徴とする請求項1に記載の情報処理装置。
  13. 前記生成手段は、撮影された撮像装置ごとに物体情報をまとめて、前記要約映像内に配置する、
    ことを特徴とする請求項1に記載の情報処理装置。
  14. 前記要約映像を再生する再生手段、をさらに有し、
    前記再生手段は、前記要約映像の再生中に該要約映像内に表示されている物体情報がユーザによって選択された場合、該物体情報を撮影した撮像装置で撮影された映像の単独での要約映像に切り替えて再生を行う、
    ことを特徴とする請求項1に記載の情報処理装置。
  15. 前記再生手段は、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体を撮影した複数の撮像装置それぞれで撮影された映像の単独での要約映像を順次切り替えて再生する、
    ことを特徴とする請求項14に記載の情報処理装置。
  16. 前記再生手段は、選択された物体情報にかかる物体と同じ物体が複数の撮像装置で検出されていた場合には、該物体にかかる複数の物体情報を集約してなる要約映像に切り替えて再生を行う、
    ことを特徴とする請求項14に記載の情報処理装置。
  17. 複数の映像を撮像する複数の撮像装置と、
    前記複数の撮像装置から前記複数の映像を取得して要約映像を生成する請求項1〜16のいずれか1項に記載の情報処理装置と、
    を有することを特徴とする情報処理システム。
  18. 映像の中で検知された対象物の出現順序を変更することにより、要約映像を生成する情報処理方法において、
    複数の撮像装置のそれぞれで撮影された複数の映像を取得するステップと、
    前記取得するステップにより取得された複数の映像のそれぞれから、それぞれ物体の軌跡を示す1以上の物体情報を抽出するステップと、
    前記抽出するステップにより抽出された1以上の物体情報を1つの背景画像上に集約してなる要約映像を生成するステップと、
    を有することを特徴とする情報処理方法。
  19. コンピュータを、請求項1から16のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2019188340A 2019-10-15 2019-10-15 情報処理装置、情報処理システム、情報処理方法およびプログラム Pending JP2021064870A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019188340A JP2021064870A (ja) 2019-10-15 2019-10-15 情報処理装置、情報処理システム、情報処理方法およびプログラム
US17/067,437 US11501534B2 (en) 2019-10-15 2020-10-09 Information processing apparatus, information processing system, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019188340A JP2021064870A (ja) 2019-10-15 2019-10-15 情報処理装置、情報処理システム、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2021064870A true JP2021064870A (ja) 2021-04-22

Family

ID=75383170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019188340A Pending JP2021064870A (ja) 2019-10-15 2019-10-15 情報処理装置、情報処理システム、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11501534B2 (ja)
JP (1) JP2021064870A (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078050A2 (en) * 2000-04-07 2001-10-18 Inmotion Technologies Ltd. Automated stroboscoping of video sequences
KR101420885B1 (ko) 2005-11-15 2014-07-17 이슘 리서치 디벨롭먼트 컴퍼니 오브 더 히브루 유니버시티 오브 예루살렘, 엘티디. 비디오 시놉시스 생성 방법 및 시스템
WO2008032739A1 (fr) * 2006-09-12 2008-03-20 Panasonic Corporation Dispositif de formation d'image de contenu
US8311277B2 (en) * 2007-02-01 2012-11-13 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
US20160180884A1 (en) * 2014-10-15 2016-06-23 Benjamin Nowak Method and system for synchronization of multiple content streams
US10565455B2 (en) * 2015-04-30 2020-02-18 Ants Technology (Hk) Limited Methods and systems for audiovisual communication
JP6602067B2 (ja) * 2015-06-18 2019-11-06 キヤノン株式会社 表示制御装置、表示制御方法、プログラム

Also Published As

Publication number Publication date
US20210110165A1 (en) 2021-04-15
US11501534B2 (en) 2022-11-15

Similar Documents

Publication Publication Date Title
JP6399356B2 (ja) 追跡支援装置、追跡支援システムおよび追跡支援方法
US9591364B2 (en) Image processing apparatus, image processing method, and program
US10235574B2 (en) Image-capturing device, recording device, and video output control device
US10116910B2 (en) Imaging apparatus and method of providing imaging information
US10043079B2 (en) Method and apparatus for providing multi-video summary
US20180232943A1 (en) System and method for generating a virtual viewpoint apparatus
CN107209922A (zh) 图像处理设备、图像处理系统、和图像处理方法
WO2018037631A1 (ja) 追跡支援装置、追跡支援システムおよび追跡支援方法
EP3113483B1 (en) Apparatus, method and computer program
JPWO2017169369A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2009123196A (ja) 画像検索装置
CN103946871A (zh) 图像处理装置、图像识别装置、图像识别方法以及程序
JP2013007836A (ja) 画像表示装置、画像表示方法及びプログラム
US10719543B2 (en) Information processing apparatus, information processing method, and program
JP5088463B2 (ja) 監視システム
WO2015178234A1 (ja) 画像検索システム
CN105376511B (zh) 图像处理装置、图像处理系统以及图像处理方法
JP2021064870A (ja) 情報処理装置、情報処理システム、情報処理方法およびプログラム
US11223802B2 (en) Image-based determination apparatus and image-based determination system
JP2004064438A (ja) 監視システム及び監視方法
WO2017187607A1 (ja) 映像監視方法およびサーバならびに映像監視システム
KR20140106351A (ko) 스마트 골프 스윙 분석장치
JP6207656B1 (ja) 映像監視方法およびサーバならびに映像監視システム
JP5089648B2 (ja) 映像比較装置,映像比較方法,映像比較プログラムおよび映像比較プログラムの記録媒体
KR20180046044A (ko) 전방위 영상 표시 장치 및 그 표시 방법