JP2021078092A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2021078092A
JP2021078092A JP2019205839A JP2019205839A JP2021078092A JP 2021078092 A JP2021078092 A JP 2021078092A JP 2019205839 A JP2019205839 A JP 2019205839A JP 2019205839 A JP2019205839 A JP 2019205839A JP 2021078092 A JP2021078092 A JP 2021078092A
Authority
JP
Japan
Prior art keywords
video
audio
voice
information processing
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019205839A
Other languages
English (en)
Inventor
慧 岡本
Kei Okamoto
慧 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019205839A priority Critical patent/JP2021078092A/ja
Publication of JP2021078092A publication Critical patent/JP2021078092A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数のオブジェクトにより発せられた音声を、対応するオブジェクトの映像と同期させ、対応しないオブジェクトとは時間軸方向に重ねないで、聞き取りやすい要約映像を生成することを可能にする。【解決手段】映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、CPU201は、記憶された第一の映像の映像区間において音声を検出する音声検出部305と、音声検出部で取得された第一の音声と関連する第一のオブジェクトと、第一の音声とは関連せず第二の音声と関連する第二のオブジェクトとを抽出する被写体抽出部304と、第一の音声と第二の音声と第一のオブジェクトと第二のオブジェクトに基づいて第二の映像を生成する要約映像生成部306とを備える。映像生成部は、第一のオブジェクトと第二のオブジェクトが時間軸方向で重ならないように配置して、第二の映像を生成する。【選択図】図3

Description

本発明は、情報処理装置、映像生成システム、映像生成方法及びプログラムに関する。
近年、セキュリティ意識の高まりから、多くの監視カメラが設置されている。しかし、長時間蓄積した監視映像が膨大となり、その膨大な監視映像を確認するには膨大な時間を要する。そこで、特許文献1では、撮影した監視映像を、短い映像に要約する技術が開示されている(以降、要約された映像を要約映像と呼ぶ)。
特許第4972095号
しかしながら、音声データを有する監視映像をオリジナルの映像(以下、「元映像」と称する)として、要約映像を生成した場合、元映像では異なる時刻に音声を発していた人物等の複数のオブジェクトが存在していたとする。これを要約映像では同じタイミングで再生されるように時間軸方向に出現順序をずらして配置したとする。この時に、複数の音声もオブジェクトと同期して要約映像を生成すると音声が重なって、一つ一つの音声が聞き分けづらい。
映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、記憶された第一の映像の映像区間において音声を検出する音声検出手段と、音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、第一の音声と第二の音声と第一のオブジェクトと第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、映像生成手段は、第一のオブジェクトと第二のオブジェクトが時間軸方向で重ならないように配置して、第二の映像を生成することを特徴とする。
本発明によれば、複数のオブジェクトにより発せられた音声を、対応するオブジェクトの映像と同期させ、対応しないオブジェクトとは時間軸方向に重ねないで、聞き取りやすい要約映像を生成することができる。
本発明の実施形態に係る、情報処理システムのシステム構成図 本発明の実施形態に係る、情報処理装置のハードウェア構成図 本発明の実施形態に係る、情報処理装置の機能構成図 本発明の実施形態に係る、要約映像を生成するフローチャート 本発明の実施形態に係る、映像取得部で取得した元映像と、その入力画像から生成される要約映像を3次元的に表現した模式図 本発明の実施形態に係る、オブジェクトに優先度をつけ要約映像を生成する例を説明する模式図 本発明の実施形態に係る、オブジェクトと音量と優先度とを示したテーブル 本発明の実施形態に係る、最終的な要約映像のあるフレーム 本発明の実施形態の変形例を説明する図
[実施形態1]
以下に、本発明の実施形態について図面に基づいて説明する
図1は、実施形態に係る情報処理システムのシステム構成図である。図1の映像生成システムは、撮像装置101と、ネットワーク102、情報処理装置103と、を含む。
撮像装置101は、ネットワークカメラ等の映像を取得する装置であり、撮像装置101は映像だけではなく、付属するマイク等により音声も取得する。
ネットワーク102は、撮像装置101と情報処理装置103との接続に利用されるネットワークである。ネットワーク102は、例えば、Ethernet(登録商標)等の通信規格を満足する複数のルータ、スイッチ、ケーブル等から構成される。ネットワーク102は、撮像装置101、情報処理装置103間の通信を行うことができるものであればその通信規格、規模、構成を問わない。
情報処理装置103は、パーソナルコンピュータ、サーバ、タブレット等である。映像や音声等の情報を処理する装置である。情報処理装置103は、撮像装置101からネットワーク102を介して映像や音声を受信する。
なお、撮像装置101と情報処理装置103との間の通信を、USB(Universal Serial Bus)やCameraLinkなどを用いて構成してもよい。
図2は、本発明の実施形態における情報処理装置103のハードウェア構成図である。
情報処理装置103は、CPU201と、ROM202と、RAM203と、NW処理部204と、記憶部205と、入力部206と、映像出力部207と、音声出力部208とを有している。
CPU201はROM202に記憶された制御プログラムを読み出して各種処理を実行する。RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。NW処理部204は、ネットワーク102を介して、外部装置との通信処理を行う。
記憶部205は、例えば、ハードディスクやSDカード等の記憶媒体であって各種データや各種プログラム等を記憶する。撮像装置101からネットワーク102を介して受信した映像や音声はこの記憶部に格納される。
入力部206は、キーボードやマウス、ジョイスティック等であって、ユーザによる各種操作を受け付ける。映像出力部207は、ディスプレイやプロジェクターの表示装置に対して、映像を出力する。音声出力部208は、スピーカー等に対して音声データを出力する。
図3は情報処理装置103の機能構成図である。情報処理装置103は、映像取得部301、音声取得部302、背景抽出部303、オブジェクト抽出部304、音声検出部305、要約映像生成部306を有する。
映像取得部301は記憶部205から映像を取得する。
音声取得部302は、映像取得部301で取得した映像に対応する音声データを記憶部205より取得する。
背景抽出部303は、映像取得部301で取得した映像から背景画像を抽出する。背景画像は例えば各画素におけるある期間のフレームのメディアンや各画素の平均を各画素値として生成してもよい。
オブジェクト抽出部304は、映像取得部301で取得した映像のオブジェクトを抽出する。オブジェクトは例えば、背景抽出部303で抽出した背景画像と元映像との差分を検出する、いわゆる背景差分を用いることで抽出する。
続いて音声検出部305では、オブジェクト抽出部304で抽出したオブジェクトが出現している映像区間に対応する音声を検出する。映像区間については後述する。なお、音声検出部305における音声の検出では、音声の出力値が閾値以上なら音声を検出したと判定して、音声を抽出する。また音声検出部305は、取得した音声の周波数等から音声を識別し、人か車か、男性か女性かといった識別をおこなってもよい。音声識別を利用した場合の流れは後述する。
続いて、要約映像生成部306にて、背景抽出部303、オブジェクト抽出部304、音声検出部305で検出した背景、オブジェクト、音声データを基に、音声データを含んだ要約映像を生成する。具体的な要約映像の生成は後述する。
図4は本発明の実施形態における要約映像を生成するフローチャートであり、図5は要約映像を生成する流れを示す模式図である。
図4のフローチャートの処理は、図2のCPU201の制御動作を表している。このフローチャートの処理は、ROM202に格納されRAM203に呼び出された制御プログラムに基づいて、CPU201によって、実行される。
図5の模式図は、映像取得部301で取得した元映像501と、その入力画像501から生成される要約映像507を3次元的に表現した模式図である。
奥行方向が時間軸tを表す。元映像501に、オブジェクト503、504、505、506が各々の時刻に映像に映っており、オブジェクト505と506は部分的に同じ映像区間に出現している。
ここで、図5のx軸、y軸は2次元の映像の座標を表す軸である。また映像区間とは、映像の時間的な幅を表す。
音声データ502は、元映像が取得されるときに、音声取得部302で取得した音声のデータを模式的に表している。この音声データ502は、元映像501に対応する音声の波形を表すデータであり、振動して描いている部分では音声を音声取得部302が取得していることを示す。つまり、この音声データ502は、丁度オブジェクト504、505、506が存在する映像区間で音声が検出されたと音声検出部395が識別したことを示している。
図4のフローチャートに沿って説明する。まずS401で、背景抽出部303が背景画像を抽出し、オブジェクト抽出部304が背景画像との差分から、オブジェクト503、504、505、506を抽出する。S402〜S404では、要約映像生成部306が、要約映像を生成する。S402では、要約映像生成部306が、音声の有無が識別して、音声の有る映像区間に出現しているオブジェクト(504、505、506)を用いて、要約映像(処理途中)507を生成する。
要約映像生成部306が要約映像(処理途中)507を生成する際には、元映像501で同じ映像区間を共有し音声データも共有するオブジェクト505、506は、要約映像507でも映像区間を共有する配置(505、506)とする。元映像501でオブジェクト505、506と映像区間を共有せず音声データも共有しないオブジェクト504は、要約映像507でも映像区間を共有せず、オブジェクト505、506に対して時間軸方向にずらした配置(504)とする。音声が検出されていないオブジェクト503は、まだ配置されない。
S403にて要約映像生成部306は、要約映像(処理途中)507等の要約映像における音声(以降、要約音声508と呼ぶ)を生成する。
要約音声508の作成の際には、オブジェクト504が出現している映像区間は、元映像501にてオブジェクト504が出現している映像区間の音声を合成する。
また、オブジェクト505と506が出現している映像区間では、元映像501にてオブジェクト505と506が出現している映像区間の音声を合成する。
このようにして、オブジェクトに同期して関連する音声が再生されるように配置する。
複数の映像区間で音声が検出されている場合に、要約映像生成部306は、抽出された複数の音声データが重ならない様に、要約映像上でオブジェクトも音声データも配置する。
これによって、最終的に出力される要約映像512は、元映像505の無音の期間が長いほど時間の短い映像となる。
最後にS404にて、要約映像生成部306は、元映像501において音声が検出されない映像区間に出現しているオブジェクト503を配置する。
要約映像生成部306は、音声と関連しないオブジェクト503を、要約映像(処理途中)の、S402にて配置したオブジェクト(504、505、506)とは映像区間で重ならないように配置して要約映像512を作成する。
これらの処理により、要約映像生成部306は、最終的な要約映像512を生成すると共に、対応する要約音声データ508も生成する。
ここで、オブジェクト503がオブジェクト(504、505、506)と映像区間で重ならないように配置する具体的な方法を説明する。
要約映像生成部306は、以下の式(1)を用いて、オブジェクトi,j間の衝突コストColij(k)を算出する。ただし、kはオブジェクトi,jの出現の開始時刻の時間差であり、x ,y はそれぞれ時刻tにおけるオブジェクトiの中心のx座標及びy座標であり、r は時刻tにおけるオブジェクトiの半径である。また、Tij(k)は、出現の開始時刻の時間差がkであるとしたときに、オブジェクトi,jの両方の動作軌跡が映像中に現れる期間を表している。
さらに、式(1)右辺の絶対値記号内側の数式は、オブジェクトi,jの中心間の距離が半径の合計よりも小さいときに衝突ありを示す相対的に大きな値となり、それ以外のときに衝突なしを示す相対的に小さな値となる数式を表している。
したがって、衝突コストColij(k)は、値が大きいほど、オブジェクトi,jが衝突するフレームの数が多いことを表す。
Figure 2021078092
要約映像生成部306は、オブジェクトの全ての組み合わせにおいて衝突コストColij(k)が最小になる出現の開始時刻を求めるために、シミュレーテッドアニーリング法を用いる。シミュレーテッドアニーリング法によれば、範囲制約のある非線形問題を効率的に計算することができる。
したがって、要約映像生成部306は、シミュレーテッドアニーリング法を用いて各オブジェクトの出現の開始時刻を求めることにより、要約映像における最適な各オブジェクトの出現の開始時刻を求めることができる。要約映像生成部306は、このようにして元映像に対してオブジェクトの空間的な位置を維持しつつ、出現開始順序を変更することで要約映像を生成する。具体的には、背景画像の上に元映像から画素マスクを用いて切り出したオブジェクトの画像を、算出した出現の開始時刻を基に張り付けていくことによって、要約映像が生成される。
このようにしてオブジェクト503がオブジェクト(504、505、506)と映像区間で重ならないように配置し、映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する。
尚、元映像に音声がもともと無い場合や、元映像で音声が有っても検出されない場合などは、要約映像生成処理は従来の処理と変わらないため、説明を省略する。音声が検出されてもその映像区間にオブジェクトがいない場合は、その映像区間を要約映像の最後に付加してもよい。
次に実施形態の変形例について説明する。
図6はオブジェクトに優先度を付与し要約映像を生成する例を説明する模式図であり、図7はオブジェクトと音量と優先順位のテーブルである。
図6は、映像取得部301で取得した元映像601にオブジェクト603、604、605、606のそれぞれが異なる映像区間に出現している。音声データ602は元映像601の音声を表すデータであり音声取得部302から取得される。また、音声検出部305が音量検出を行い、オブジェクト603、604、605、606のそれぞれの音量は大小関係があるものとし、オブジェクト604>605>606>603の関係があるとする。
図7はオブジェクト603、604、605、606と音量と付与される優先度とを示したテーブルであり、優先度は音量の出力レベルに応じて音声検出部305によって付与される。このように音声検出部305は優先度付与手段としても機能する。
本実施形態では優先度は優先度高と優先度低の二通りである。音量が中以上を優先度高とするので、図6の模式図に示すように、要約映像生成部306が優先度の高いオブジェクト604と605を、まず要約映像(処理途中)607に重ならないように配置する。
次に、優先度の低いオブジェクト606、603を、最終的な要約映像611へ配置する。オブジェクト606は音量の小さい音声データが検出されているが、要約音声611を生成する際にその音声データを使用しない。
ここで元映像601において音声の検出されているオブジェクトが多いと、音声が重ならないように要約映像を生成したときに再生時間が長くなってしまう。しかし、これまで説明したように優先度に基づいて音声データ選択して要約映像を生成することで、時間軸方向に重なることを許可されたオブジェクトが増え、相対的に再生時間のより短い要約映像を生成することができる。
尚、優先度の高低を表す閾値をクライアントが決めてもよい。また、クライアントはあらかじめ要約映像の再生時間を決定し、その時間を超えないように情報処理装置103側で閾値を決めることとしてもよい。また、本変形例では情報処理装置103が、優先度を音量に基づいて付与する方法を説明した。しかし、悲鳴では声が高くなることを考慮して、音声の周波数の高さに基づいて優先度を付与してもよい。
また、音声検出部305が音声の識別も行って、人の声か否か、悲鳴か否かなどを識別して、その識別の結果に基づいて、人の悲鳴であれば優先度を高くし、他は低くするというように構成してもよい。
図8は最終的な要約映像のあるフレームである。このフレームには、オブジェクト802、803、804が配置されている。
また、オブジェクト802は、元映像において、その映像区間で音声が検出されて、かつ、優先度が高いので、要約映像生成部306は、オブジェクト802を実線の矩形の枠で囲んで描画する。
オブジェクト803は音声が検出されたが、優先度が低いので、点線の枠で囲んで描画される。
オブジェクト804は、入力画像上の対応する映像区間では音声が検出されなかったとする。この場合にはオブジェクト804は枠で囲んで描画はされない。
このように要約映像生成部306は付加情報を優先度に応じて段階的に付加して要約映像を生成する。
また、クライアントは入力部206のマウスやキーボードの操作によりオブジェクト802、803、804を選択したとする。すると、選択したオブジェクトが出現している映像区間の元映像と入力音声を、CPU201は映像出力部207と音声出力部208に対して出力する。
このように枠を付加情報として設けることで、要約映像と要約音声を確認する際に、どのオブジェクトの音声を発しているかを、クライアントが視認できる。
また、前述のように、優先度の高い方のオブジェクト802を囲む実線の枠とは異なる破線の枠を優先度の低い方のオブジェクト803のまわりに描画している。
優先度の高いオブジェクトと優先度の低いオブジェクトを同時に要約映像で配置する場合、オブジェクト803はオブジェクト802より優先度が低い。そのため、要約映像ではオブジェクト803の方の音声は再生されないので、ユーザはオブジェクト803の音声を要約音声からでは確認できない。
しかし、ユーザは、要約映像上でオブジェクト803について、入力部206を用いて選択することによって、要約映像上では再生されない音声を再生できる。このようにユーザは付加情報に基づいて音声の有無を優先度とともに要約映像上で識別できて、要約映像上でオブジェクト803を選択することによって優先度の低い方のオブジェクト803の音声を確認することができる。
なお、図8では、実線の枠と、点線の枠とで、映像上の優先度を示しているが、この限りではない。例えば一点鎖線や二重線など、線の種類を変えたり、線の太さや色を変えてもよい。また、これらを組み合わせてもよいし、種類や太さや色以外の手段を用いてもよい。
続いて、図9を参照して実施形態の別な変形例について説明する。
図9では、映像取得部301で生成した元映像901にオブジェクト903(男性)、905(女性)が音声データの検出されている、ある同じ映像区間に存在し、音声検出部305は、その検出された音声データは女性の声と識別している。
元映像で同じ映像区間に複数のオブジェクトが存在しているが、音声検出部305により音声を発したオブジェクトは特定されているものとする。要約映像生成部306は、音声を発したと特定されているオブジェクトを、対応する音声データと同期させて配置する。
一方、音声を発していないと特定されたオブジェクトを、音声とは必ずしも同期させず、もっとも要約映像を短縮できる時間的な位置に配置している。これにより音声に合わせて音声を発していないオブジェクトも配置する場合に比べ、要約映像の再生時間を短縮することが可能になる。
なお、本変形例では男性と女性の識別をしているが、さらに車と人や、車とバイクといった人と物、物と物のさらなる識別をしてもよい。ただし、防犯目的で使用されている場合に、害者の音声と同時にいるのが加害者であると疑われる場合などでは、この機能をオフにしてもよい。
なお、音声を発していないオブジェクトを要約映像に配置する際、同じ映像区間には、音声を発しているオブジェクトとは、種類が異なる別のオブジェクトを優先的に配置するとさらに良い。例えば、音声を発している女性とは音声の発していない男性を時間軸方向に重ねて組み合わせて配置する。これは要約映像を再生する際に、どのオブジェクトが音声を発しているかがユーザにとって分かりやすくなるからである。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である
101 撮像装置
102 ネットワーク
103 情報処理装置
302 音声取得部(音声取得手段)
304 オブジェクト抽出部(オブジェクト抽出手段)
306 要約映像生成部(映像生成手段)

Claims (12)

  1. 映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、
    記憶された第一の映像の映像区間において音声を検出する音声検出手段と、
    前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、
    前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、
    前記映像生成手段は、前記第一のオブジェクトと前記第二のオブジェクトが時間軸方向で重ならないように配置して、前記第二の映像を生成することを特徴とする情報処理装置。
  2. 前記映像生成手段は、前記第一のオブジェクトを前記第一の音声と同期させ、前記第二のオブジェクトを前記第一の音声と同期させないで、前記第二の映像を生成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記第一の映像の映像区間において、前記第一のオブジェクトのほかに前記第一の音声と関連する第三のオブジェクトが前記オブジェクト抽出手段によってさらに抽出され、
    前記映像生成手段が、前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに加え、さらに第三のオブジェクトに基づいて第三の映像を生成し、
    前記映像生成手段は、前記第三の映像においての前記第一のオブジェクトと前記第三のオブジェクトの出現順序を、前記第一の映像においての前記第一のオブジェクトと前記第三のオブジェクトと同じ出現順序とすることを特徴とする請求項1または2のいずれか1項に記載の情報処理装置。
  4. 映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理装置において、
    記憶された第一の映像の映像区間において音声を検出する音声検出手段と、
    前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連しない第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出手段と、
    前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成手段と、と備え、
    前記音声検出手段は、
    前記第一の音声に基づいて第一のオブジェクトに第一の優先度を付与し、
    前記第二の音声に基づいて第二のオブジェクトに第二の優先度を付与する、優先度付与手段をさらに備え、
    前記第一の優先度と前記第二の優先度に基づいて、前記第一のオブジェクトと前記第二のオブジェクトの時間軸方向の重なりを許可して、前記第二の映像を生成することを特徴とする情報処理装置。
  5. 前記映像生成手段は、前記第一の優先度に基づいて前記第一のオブジェクトに、第一の付加情報を付加して映像を生成することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記映像生成手段は、さらに前記第二の優先度に基づいて前記第二のオブジェクトに、第二の付加情報を付加して映像を生成し、前記第一の付加情報は前記第二の付加情報とは異なることを特徴とする請求項5に記載の情報処理装置。
  7. 前記音声検出手段は前記音声を識別し、前記映像生成手段は前記識別の結果に基づいて、前記音声の検出された映像区間に出現していた複数のオブジェクトのうち、どのオブジェクトの音声かを特定し、その結果に基づいて映像の中で検出されたオブジェクトの出現順序を変更し、映像を生成することを特徴とする、
    請求項6に記載の情報処理装置。
  8. 前記音声検出手段はオブジェクトの音声の有無を識別し、
    前記映像生成手段は、音声が検出されないオブジェクトを、音声が検出されたオブジェクトのある映像区間に時間軸方向に重ねて配置することを特徴とする、
    請求項7に記載の情報処理装置。
  9. 映像を撮像する撮像装置と、
    前記撮像装置からの映像を取得して要約映像を生成する請求項1〜8のいずれか1項に記載の情報処理装置と、
    を有することを特徴とする情報処理システム。
  10. 映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理方法において、
    記憶された第一の映像の映像区間において音声を検出する音声検出ステップと、
    前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連せず第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出ステップと、
    前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成ステップと、と備え、
    前記映像生成ステップは、前記第一のオブジェクトと前記第二のオブジェクトが時間軸方向で重ならないように配置して、前記第二の映像を生成することを特徴とする情報処理方法。
  11. 映像の中で検出されたオブジェクトの出現順序を変更することにより、要約映像を生成する情報処理方法において、
    記憶された第一の映像の映像区間において音声を検出する音声検出ステップと、
    前記音声検出手段で取得された第一の音声と関連する第一のオブジェクトと、前記第一の音声とは関連しない第二の音声と関連する第二のオブジェクトと、を抽出するオブジェクト抽出ステップと、
    前記第一の音声と前記第二の音声と前記第一のオブジェクトと前記第二のオブジェクトに基づいて第二の映像を生成する映像生成ステップと、と備え、
    前記音声検出手段は、
    前記第一の音声に基づいて第一のオブジェクトに第一の優先度を付与し、
    前記第二の音声に基づいて第二のオブジェクトに第二の優先度を付与する、優先度付与ステップをさらに備え、
    前記第一の優先度と前記第二の優先度に基づいて、前記第一のオブジェクトと前記第二のオブジェクトの時間軸方向の重なりを許可して、前記第二の映像を生成することを特徴とする情報処理方法。
  12. コンピュータを、請求項1から9のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2019205839A 2019-11-13 2019-11-13 情報処理装置、情報処理方法及びプログラム Pending JP2021078092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019205839A JP2021078092A (ja) 2019-11-13 2019-11-13 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019205839A JP2021078092A (ja) 2019-11-13 2019-11-13 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2021078092A true JP2021078092A (ja) 2021-05-20

Family

ID=75898541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019205839A Pending JP2021078092A (ja) 2019-11-13 2019-11-13 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2021078092A (ja)

Similar Documents

Publication Publication Date Title
JP6017854B2 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US20190199997A1 (en) Image processing apparatus, image generating method, and storage medium
EP2323425B1 (en) Method and device for generating audio signals
US10721440B2 (en) Video conferencing apparatus and video conferencing method
US9418436B2 (en) Image processing apparatus, imaging apparatus, and image processing method
JP2013527947A5 (ja)
JP2019092076A (ja) 画像処理装置、画像処理方法、及びプログラム
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
US10600218B2 (en) Display control system, display control apparatus, display control method, and storage medium
JP2016213677A (ja) 遠隔コミュニケーションシステム、その制御方法、及びプログラム
CN105991968A (zh) 显示设备伪装/恢复系统和控制方法
JP2018084878A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2017224166A (ja) 画像生成装置、画像生成プログラム及び画像生成方法
JP2018055279A (ja) 画像処理装置、画像処理方法、及び、プログラム
US10674304B2 (en) Signal processing apparatus and signal processing method
JP2021078092A (ja) 情報処理装置、情報処理方法及びプログラム
US20170157514A1 (en) Condition Ascertainment Unit
JP2006121264A (ja) 動画像処理装置、動画像処理方法およびプログラム
WO2024105870A1 (ja) 制御システム、制御方法、および記録媒体
US10986310B2 (en) Information processing apparatus, information processing method, and program
KR102419133B1 (ko) 증강 현실 콘텐츠 제작 장치 및 방법
JP2017059916A (ja) コンテンツ出力装置、コンテンツ出力方法及びプログラム
JP2012074999A (ja) 画像データ伝送システム、サーバ装置、クライアント端末、画像データ伝送方法、及び制御プログラム
WO2024069779A1 (ja) 制御システム、制御方法、および記録媒体