JP2021078092A

JP2021078092A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2021078092A
Application number: JP2019205839A
Authority: JP
Inventors: 慧岡本; Kei Okamoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-05-20

Abstract

【課題】複数のオブジェクトにより発せられた音声を、対応するオブジェクトの映像と同期させ、対応しないオブジェクトとは時間軸方向に重ねないで、聞き取りやすい要約映像を生成することを可能にする。【解決手段】映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、ＣＰＵ２０１は、記憶された第一の映像の映像区間において音声を検出する音声検出部３０５と、音声検出部で取得された第一の音声と関連する第一のオブジェクトと、第一の音声とは関連せず第二の音声と関連する第二のオブジェクトとを抽出する被写体抽出部３０４と、第一の音声と第二の音声と第一のオブジェクトと第二のオブジェクトに基づいて第二の映像を生成する要約映像生成部３０６とを備える。映像生成部は、第一のオブジェクトと第二のオブジェクトが時間軸方向で重ならないように配置して、第二の映像を生成する。【選択図】図３

Description

本発明は、情報処理装置、映像生成システム、映像生成方法及びプログラムに関する。

近年、セキュリティ意識の高まりから、多くの監視カメラが設置されている。しかし、長時間蓄積した監視映像が膨大となり、その膨大な監視映像を確認するには膨大な時間を要する。そこで、特許文献１では、撮影した監視映像を、短い映像に要約する技術が開示されている（以降、要約された映像を要約映像と呼ぶ）。

特許第４９７２０９５号

しかしながら、音声データを有する監視映像をオリジナルの映像（以下、「元映像」と称する）として、要約映像を生成した場合、元映像では異なる時刻に音声を発していた人物等の複数のオブジェクトが存在していたとする。これを要約映像では同じタイミングで再生されるように時間軸方向に出現順序をずらして配置したとする。この時に、複数の音声もオブジェクトと同期して要約映像を生成すると音声が重なって、一つ一つの音声が聞き分けづらい。

映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、記憶された第一の映像の映像区間において音声を検出する音声検出手段と、音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、第一の音声と第二の音声と第一のオブジェクトと第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、映像生成手段は、第一のオブジェクトと第二のオブジェクトが時間軸方向で重ならないように配置して、第二の映像を生成することを特徴とする。

本発明によれば、複数のオブジェクトにより発せられた音声を、対応するオブジェクトの映像と同期させ、対応しないオブジェクトとは時間軸方向に重ねないで、聞き取りやすい要約映像を生成することができる。

本発明の実施形態に係る、情報処理システムのシステム構成図本発明の実施形態に係る、情報処理装置のハードウェア構成図本発明の実施形態に係る、情報処理装置の機能構成図本発明の実施形態に係る、要約映像を生成するフローチャート本発明の実施形態に係る、映像取得部で取得した元映像と、その入力画像から生成される要約映像を３次元的に表現した模式図本発明の実施形態に係る、オブジェクトに優先度をつけ要約映像を生成する例を説明する模式図本発明の実施形態に係る、オブジェクトと音量と優先度とを示したテーブル本発明の実施形態に係る、最終的な要約映像のあるフレーム本発明の実施形態の変形例を説明する図

［実施形態１］
以下に、本発明の実施形態について図面に基づいて説明する
図１は、実施形態に係る情報処理システムのシステム構成図である。図１の映像生成システムは、撮像装置１０１と、ネットワーク１０２、情報処理装置１０３と、を含む。

撮像装置１０１は、ネットワークカメラ等の映像を取得する装置であり、撮像装置１０１は映像だけではなく、付属するマイク等により音声も取得する。

ネットワーク１０２は、撮像装置１０１と情報処理装置１０３との接続に利用されるネットワークである。ネットワーク１０２は、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）等の通信規格を満足する複数のルータ、スイッチ、ケーブル等から構成される。ネットワーク１０２は、撮像装置１０１、情報処理装置１０３間の通信を行うことができるものであればその通信規格、規模、構成を問わない。

情報処理装置１０３は、パーソナルコンピュータ、サーバ、タブレット等である。映像や音声等の情報を処理する装置である。情報処理装置１０３は、撮像装置１０１からネットワーク１０２を介して映像や音声を受信する。

なお、撮像装置１０１と情報処理装置１０３との間の通信を、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＣａｍｅｒａＬｉｎｋなどを用いて構成してもよい。

図２は、本発明の実施形態における情報処理装置１０３のハードウェア構成図である。

情報処理装置１０３は、ＣＰＵ２０１と、ＲＯＭ２０２と、ＲＡＭ２０３と、ＮＷ処理部２０４と、記憶部２０５と、入力部２０６と、映像出力部２０７と、音声出力部２０８とを有している。

ＣＰＵ２０１はＲＯＭ２０２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＮＷ処理部２０４は、ネットワーク１０２を介して、外部装置との通信処理を行う。

記憶部２０５は、例えば、ハードディスクやＳＤカード等の記憶媒体であって各種データや各種プログラム等を記憶する。撮像装置１０１からネットワーク１０２を介して受信した映像や音声はこの記憶部に格納される。

入力部２０６は、キーボードやマウス、ジョイスティック等であって、ユーザによる各種操作を受け付ける。映像出力部２０７は、ディスプレイやプロジェクターの表示装置に対して、映像を出力する。音声出力部２０８は、スピーカー等に対して音声データを出力する。

図３は情報処理装置１０３の機能構成図である。情報処理装置１０３は、映像取得部３０１、音声取得部３０２、背景抽出部３０３、オブジェクト抽出部３０４、音声検出部３０５、要約映像生成部３０６を有する。

映像取得部３０１は記憶部２０５から映像を取得する。

音声取得部３０２は、映像取得部３０１で取得した映像に対応する音声データを記憶部２０５より取得する。

背景抽出部３０３は、映像取得部３０１で取得した映像から背景画像を抽出する。背景画像は例えば各画素におけるある期間のフレームのメディアンや各画素の平均を各画素値として生成してもよい。

オブジェクト抽出部３０４は、映像取得部３０１で取得した映像のオブジェクトを抽出する。オブジェクトは例えば、背景抽出部３０３で抽出した背景画像と元映像との差分を検出する、いわゆる背景差分を用いることで抽出する。

続いて音声検出部３０５では、オブジェクト抽出部３０４で抽出したオブジェクトが出現している映像区間に対応する音声を検出する。映像区間については後述する。なお、音声検出部３０５における音声の検出では、音声の出力値が閾値以上なら音声を検出したと判定して、音声を抽出する。また音声検出部３０５は、取得した音声の周波数等から音声を識別し、人か車か、男性か女性かといった識別をおこなってもよい。音声識別を利用した場合の流れは後述する。

続いて、要約映像生成部３０６にて、背景抽出部３０３、オブジェクト抽出部３０４、音声検出部３０５で検出した背景、オブジェクト、音声データを基に、音声データを含んだ要約映像を生成する。具体的な要約映像の生成は後述する。

図４は本発明の実施形態における要約映像を生成するフローチャートであり、図５は要約映像を生成する流れを示す模式図である。

図４のフローチャートの処理は、図２のＣＰＵ２０１の制御動作を表している。このフローチャートの処理は、ＲＯＭ２０２に格納されＲＡＭ２０３に呼び出された制御プログラムに基づいて、ＣＰＵ２０１によって、実行される。

図５の模式図は、映像取得部３０１で取得した元映像５０１と、その入力画像５０１から生成される要約映像５０７を３次元的に表現した模式図である。

奥行方向が時間軸ｔを表す。元映像５０１に、オブジェクト５０３、５０４、５０５、５０６が各々の時刻に映像に映っており、オブジェクト５０５と５０６は部分的に同じ映像区間に出現している。

ここで、図５のｘ軸、ｙ軸は２次元の映像の座標を表す軸である。また映像区間とは、映像の時間的な幅を表す。

音声データ５０２は、元映像が取得されるときに、音声取得部３０２で取得した音声のデータを模式的に表している。この音声データ５０２は、元映像５０１に対応する音声の波形を表すデータであり、振動して描いている部分では音声を音声取得部３０２が取得していることを示す。つまり、この音声データ５０２は、丁度オブジェクト５０４、５０５、５０６が存在する映像区間で音声が検出されたと音声検出部３９５が識別したことを示している。

図４のフローチャートに沿って説明する。まずＳ４０１で、背景抽出部３０３が背景画像を抽出し、オブジェクト抽出部３０４が背景画像との差分から、オブジェクト５０３、５０４、５０５、５０６を抽出する。Ｓ４０２〜Ｓ４０４では、要約映像生成部３０６が、要約映像を生成する。Ｓ４０２では、要約映像生成部３０６が、音声の有無が識別して、音声の有る映像区間に出現しているオブジェクト（５０４、５０５、５０６）を用いて、要約映像（処理途中）５０７を生成する。

要約映像生成部３０６が要約映像（処理途中）５０７を生成する際には、元映像５０１で同じ映像区間を共有し音声データも共有するオブジェクト５０５、５０６は、要約映像５０７でも映像区間を共有する配置（５０５、５０６）とする。元映像５０１でオブジェクト５０５、５０６と映像区間を共有せず音声データも共有しないオブジェクト５０４は、要約映像５０７でも映像区間を共有せず、オブジェクト５０５、５０６に対して時間軸方向にずらした配置（５０４）とする。音声が検出されていないオブジェクト５０３は、まだ配置されない。

Ｓ４０３にて要約映像生成部３０６は、要約映像（処理途中）５０７等の要約映像における音声（以降、要約音声５０８と呼ぶ）を生成する。

要約音声５０８の作成の際には、オブジェクト５０４が出現している映像区間は、元映像５０１にてオブジェクト５０４が出現している映像区間の音声を合成する。

また、オブジェクト５０５と５０６が出現している映像区間では、元映像５０１にてオブジェクト５０５と５０６が出現している映像区間の音声を合成する。

このようにして、オブジェクトに同期して関連する音声が再生されるように配置する。

複数の映像区間で音声が検出されている場合に、要約映像生成部３０６は、抽出された複数の音声データが重ならない様に、要約映像上でオブジェクトも音声データも配置する。

これによって、最終的に出力される要約映像５１２は、元映像５０５の無音の期間が長いほど時間の短い映像となる。

最後にＳ４０４にて、要約映像生成部３０６は、元映像５０１において音声が検出されない映像区間に出現しているオブジェクト５０３を配置する。

要約映像生成部３０６は、音声と関連しないオブジェクト５０３を、要約映像（処理途中）の、Ｓ４０２にて配置したオブジェクト（５０４、５０５、５０６）とは映像区間で重ならないように配置して要約映像５１２を作成する。

これらの処理により、要約映像生成部３０６は、最終的な要約映像５１２を生成すると共に、対応する要約音声データ５０８も生成する。

ここで、オブジェクト５０３がオブジェクト（５０４、５０５、５０６）と映像区間で重ならないように配置する具体的な方法を説明する。

要約映像生成部３０６は、以下の式（１）を用いて、オブジェクトｉ，ｊ間の衝突コストＣｏｌ_ｉｊ（ｋ）を算出する。ただし、ｋはオブジェクトｉ，ｊの出現の開始時刻の時間差であり、ｘ_ｔ ^ｉ，ｙ_ｔ ^ｉはそれぞれ時刻ｔにおけるオブジェクトｉの中心のｘ座標及びｙ座標であり、ｒ_ｔ ^ｉは時刻ｔにおけるオブジェクトｉの半径である。また、Ｔ_ｉｊ（ｋ）は、出現の開始時刻の時間差がｋであるとしたときに、オブジェクトｉ，ｊの両方の動作軌跡が映像中に現れる期間を表している。

さらに、式（１）右辺の絶対値記号内側の数式は、オブジェクトｉ，ｊの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。

したがって、衝突コストＣｏｌ_ｉｊ（ｋ）は、値が大きいほど、オブジェクトｉ，ｊが衝突するフレームの数が多いことを表す。

要約映像生成部３０６は、オブジェクトの全ての組み合わせにおいて衝突コストＣｏｌ_ｉｊ（ｋ）が最小になる出現の開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。

したがって、要約映像生成部３０６は、シミュレーテッドアニーリング法を用いて各オブジェクトの出現の開始時刻を求めることにより、要約映像における最適な各オブジェクトの出現の開始時刻を求めることができる。要約映像生成部３０６は、このようにして元映像に対してオブジェクトの空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出したオブジェクトの画像を、算出した出現の開始時刻を基に張り付けていくことによって、要約映像が生成される。

このようにしてオブジェクト５０３がオブジェクト（５０４、５０５、５０６）と映像区間で重ならないように配置し、映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する。

尚、元映像に音声がもともと無い場合や、元映像で音声が有っても検出されない場合などは、要約映像生成処理は従来の処理と変わらないため、説明を省略する。音声が検出されてもその映像区間にオブジェクトがいない場合は、その映像区間を要約映像の最後に付加してもよい。

次に実施形態の変形例について説明する。

図６はオブジェクトに優先度を付与し要約映像を生成する例を説明する模式図であり、図７はオブジェクトと音量と優先順位のテーブルである。

図６は、映像取得部３０１で取得した元映像６０１にオブジェクト６０３、６０４、６０５、６０６のそれぞれが異なる映像区間に出現している。音声データ６０２は元映像６０１の音声を表すデータであり音声取得部３０２から取得される。また、音声検出部３０５が音量検出を行い、オブジェクト６０３、６０４、６０５、６０６のそれぞれの音量は大小関係があるものとし、オブジェクト６０４＞６０５＞６０６＞６０３の関係があるとする。

図７はオブジェクト６０３、６０４、６０５、６０６と音量と付与される優先度とを示したテーブルであり、優先度は音量の出力レベルに応じて音声検出部３０５によって付与される。このように音声検出部３０５は優先度付与手段としても機能する。

本実施形態では優先度は優先度高と優先度低の二通りである。音量が中以上を優先度高とするので、図６の模式図に示すように、要約映像生成部３０６が優先度の高いオブジェクト６０４と６０５を、まず要約映像（処理途中）６０７に重ならないように配置する。

次に、優先度の低いオブジェクト６０６、６０３を、最終的な要約映像６１１へ配置する。オブジェクト６０６は音量の小さい音声データが検出されているが、要約音声６１１を生成する際にその音声データを使用しない。

ここで元映像６０１において音声の検出されているオブジェクトが多いと、音声が重ならないように要約映像を生成したときに再生時間が長くなってしまう。しかし、これまで説明したように優先度に基づいて音声データ選択して要約映像を生成することで、時間軸方向に重なることを許可されたオブジェクトが増え、相対的に再生時間のより短い要約映像を生成することができる。

尚、優先度の高低を表す閾値をクライアントが決めてもよい。また、クライアントはあらかじめ要約映像の再生時間を決定し、その時間を超えないように情報処理装置１０３側で閾値を決めることとしてもよい。また、本変形例では情報処理装置１０３が、優先度を音量に基づいて付与する方法を説明した。しかし、悲鳴では声が高くなることを考慮して、音声の周波数の高さに基づいて優先度を付与してもよい。

また、音声検出部３０５が音声の識別も行って、人の声か否か、悲鳴か否かなどを識別して、その識別の結果に基づいて、人の悲鳴であれば優先度を高くし、他は低くするというように構成してもよい。

図８は最終的な要約映像のあるフレームである。このフレームには、オブジェクト８０２、８０３、８０４が配置されている。

また、オブジェクト８０２は、元映像において、その映像区間で音声が検出されて、かつ、優先度が高いので、要約映像生成部３０６は、オブジェクト８０２を実線の矩形の枠で囲んで描画する。

オブジェクト８０３は音声が検出されたが、優先度が低いので、点線の枠で囲んで描画される。

オブジェクト８０４は、入力画像上の対応する映像区間では音声が検出されなかったとする。この場合にはオブジェクト８０４は枠で囲んで描画はされない。

このように要約映像生成部３０６は付加情報を優先度に応じて段階的に付加して要約映像を生成する。

また、クライアントは入力部２０６のマウスやキーボードの操作によりオブジェクト８０２、８０３、８０４を選択したとする。すると、選択したオブジェクトが出現している映像区間の元映像と入力音声を、ＣＰＵ２０１は映像出力部２０７と音声出力部２０８に対して出力する。

このように枠を付加情報として設けることで、要約映像と要約音声を確認する際に、どのオブジェクトの音声を発しているかを、クライアントが視認できる。

また、前述のように、優先度の高い方のオブジェクト８０２を囲む実線の枠とは異なる破線の枠を優先度の低い方のオブジェクト８０３のまわりに描画している。

優先度の高いオブジェクトと優先度の低いオブジェクトを同時に要約映像で配置する場合、オブジェクト８０３はオブジェクト８０２より優先度が低い。そのため、要約映像ではオブジェクト８０３の方の音声は再生されないので、ユーザはオブジェクト８０３の音声を要約音声からでは確認できない。

しかし、ユーザは、要約映像上でオブジェクト８０３について、入力部２０６を用いて選択することによって、要約映像上では再生されない音声を再生できる。このようにユーザは付加情報に基づいて音声の有無を優先度とともに要約映像上で識別できて、要約映像上でオブジェクト８０３を選択することによって優先度の低い方のオブジェクト８０３の音声を確認することができる。

なお、図８では、実線の枠と、点線の枠とで、映像上の優先度を示しているが、この限りではない。例えば一点鎖線や二重線など、線の種類を変えたり、線の太さや色を変えてもよい。また、これらを組み合わせてもよいし、種類や太さや色以外の手段を用いてもよい。

続いて、図９を参照して実施形態の別な変形例について説明する。

図９では、映像取得部３０１で生成した元映像９０１にオブジェクト９０３（男性）、９０５（女性）が音声データの検出されている、ある同じ映像区間に存在し、音声検出部３０５は、その検出された音声データは女性の声と識別している。

元映像で同じ映像区間に複数のオブジェクトが存在しているが、音声検出部３０５により音声を発したオブジェクトは特定されているものとする。要約映像生成部３０６は、音声を発したと特定されているオブジェクトを、対応する音声データと同期させて配置する。

一方、音声を発していないと特定されたオブジェクトを、音声とは必ずしも同期させず、もっとも要約映像を短縮できる時間的な位置に配置している。これにより音声に合わせて音声を発していないオブジェクトも配置する場合に比べ、要約映像の再生時間を短縮することが可能になる。

なお、本変形例では男性と女性の識別をしているが、さらに車と人や、車とバイクといった人と物、物と物のさらなる識別をしてもよい。ただし、防犯目的で使用されている場合に、害者の音声と同時にいるのが加害者であると疑われる場合などでは、この機能をオフにしてもよい。

なお、音声を発していないオブジェクトを要約映像に配置する際、同じ映像区間には、音声を発しているオブジェクトとは、種類が異なる別のオブジェクトを優先的に配置するとさらに良い。例えば、音声を発している女性とは音声の発していない男性を時間軸方向に重ねて組み合わせて配置する。これは要約映像を再生する際に、どのオブジェクトが音声を発しているかがユーザにとって分かりやすくなるからである。
（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である

１０１撮像装置
１０２ネットワーク
１０３情報処理装置
３０２音声取得部（音声取得手段）
３０４オブジェクト抽出部（オブジェクト抽出手段）
３０６要約映像生成部（映像生成手段）

Claims

映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、
記憶された第一の映像の映像区間において音声を検出する音声検出手段と、
前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、
前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、
前記映像生成手段は、前記第一のオブジェクトと前記第二のオブジェクトが時間軸方向で重ならないように配置して、前記第二の映像を生成することを特徴とする情報処理装置。
前記映像生成手段は、前記第一のオブジェクトを前記第一の音声と同期させ、前記第二のオブジェクトを前記第一の音声と同期させないで、前記第二の映像を生成することを特徴とする請求項１に記載の情報処理装置。
前記第一の映像の映像区間において、前記第一のオブジェクトのほかに前記第一の音声と関連する第三のオブジェクトが前記オブジェクト抽出手段によってさらに抽出され、
前記映像生成手段が、前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに加え、さらに第三のオブジェクトに基づいて第三の映像を生成し、
前記映像生成手段は、前記第三の映像においての前記第一のオブジェクトと前記第三のオブジェクトの出現順序を、前記第一の映像においての前記第一のオブジェクトと前記第三のオブジェクトと同じ出現順序とすることを特徴とする請求項１または２のいずれか１項に記載の情報処理装置。
映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、
記憶された第一の映像の映像区間において音声を検出する音声検出手段と、
前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連しない第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、
前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、
前記音声検出手段は、
前記第一の音声に基づいて第一のオブジェクトに第一の優先度を付与し、
前記第二の音声に基づいて第二のオブジェクトに第二の優先度を付与する、優先度付与手段をさらに備え、
前記第一の優先度と前記第二の優先度に基づいて、前記第一のオブジェクトと前記第二のオブジェクトの時間軸方向の重なりを許可して、前記第二の映像を生成することを特徴とする情報処理装置。
前記映像生成手段は、前記第一の優先度に基づいて前記第一のオブジェクトに、第一の付加情報を付加して映像を生成することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記映像生成手段は、さらに前記第二の優先度に基づいて前記第二のオブジェクトに、第二の付加情報を付加して映像を生成し、前記第一の付加情報は前記第二の付加情報とは異なることを特徴とする請求項５に記載の情報処理装置。
前記音声検出手段は前記音声を識別し、前記映像生成手段は前記識別の結果に基づいて、前記音声の検出された映像区間に出現していた複数のオブジェクトのうち、どのオブジェクトの音声かを特定し、その結果に基づいて映像の中で検出されたオブジェクトの出現順序を変更し、映像を生成することを特徴とする、
請求項６に記載の情報処理装置。
前記音声検出手段はオブジェクトの音声の有無を識別し、
前記映像生成手段は、音声が検出されないオブジェクトを、音声が検出されたオブジェクトのある映像区間に時間軸方向に重ねて配置することを特徴とする、
請求項７に記載の情報処理装置。
映像を撮像する撮像装置と、
前記撮像装置からの映像を取得して要約映像を生成する請求項１〜８のいずれか１項に記載の情報処理装置と、
を有することを特徴とする情報処理システム。
映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理方法において、
記憶された第一の映像の映像区間において音声を検出する音声検出ステップと、
前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出ステップと、
前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成ステップと、と備え、
前記映像生成ステップは、前記第一のオブジェクトと前記第二のオブジェクトが時間軸方向で重ならないように配置して、前記第二の映像を生成することを特徴とする情報処理方法。
映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理方法において、
記憶された第一の映像の映像区間において音声を検出する音声検出ステップと、
前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連しない第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出ステップと、
前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成ステップと、と備え、
前記音声検出手段は、
前記第一の音声に基づいて第一のオブジェクトに第一の優先度を付与し、
前記第二の音声に基づいて第二のオブジェクトに第二の優先度を付与する、優先度付与ステップをさらに備え、
前記第一の優先度と前記第二の優先度に基づいて、前記第一のオブジェクトと前記第二のオブジェクトの時間軸方向の重なりを許可して、前記第二の映像を生成することを特徴とする情報処理方法。
コンピュータを、請求項１から９のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。