JP4360425B2

JP4360425B2 - 画像処理装置、その処理方法およびプログラム

Info

Publication number: JP4360425B2
Application number: JP2007159468A
Authority: JP
Inventors: 雅友倉田; 誠村田; 崇小形; 啓宏王
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-06-15
Filing date: 2007-06-15
Publication date: 2009-11-11
Anticipated expiration: 2027-06-15
Also published as: US20080310725A1; CN101325680B; JP2008312061A; US8346014B2; CN101325680A

Description

本発明は、画像処理装置に関し、特に、画像コンテンツを編集することが可能な画像処理装置、その処理方法および当該方法をコンピュータに実行させるプログラムに関する。

近年、デジタルビデオカメラが普及している。このため、例えば、結婚式披露宴等のイベントにおいて、このイベントの様子が出席者によりデジタルビデオカメラで撮影されることが広く行われている。また、例えば、結婚式披露宴等のように多数の出席者が集まるイベントでは、多数の出席者により同一のシーン（例えば、ケーキカットシーン）が撮影されることも多い。このため、１つのイベントにおける同一のシーンについて複数の動画が撮影される場合がある。このように撮影された動画については、例えば、家庭内において、パソコン（パーソナルコンピュータ）を用いてそのディスプレイで再生することができる。

例えば、撮影時間が比較的長い動画を再生する場合、その撮影された動画全体を最初から再生すると、再生時間が長くなってしまう。このため、再生時間の経過に応じて、再生中の動画に対する視聴者の興味が低減してしまうことがある。そこで、その撮影された動画全体から所望する部分を視聴者が検索して、検索された部分を順次再生することが考えられる。しかしながら、このように再生する場合には、検索に要する時間が必要であるとともに検索作業が煩雑である場合が多い。このため、撮影された動画に対する視聴者の興味が低減してしまうことがある。

そこで、動画を再生する場合において、この動画の各部におけるサムネイル画像を生成して、この生成されたサムネイル画像を用いて所望の記録位置から動画を再生させる技術が提案されている。例えば、記録媒体に記録されている複数の動画のシーンから各シーンを示す画面のサムネイル画像を複数形成し、これらのサムネイル画像を表示して、表示されているサムネイル画像から所望のサムネイル画像を選択することによって、選択されたサムネイル画像に対応するシーンの先頭から動画の再生を開始する再生装置が提案されている（例えば、特許文献１参照。）。
特開平１１−２８９５１７号公報（図７）

上述の従来技術によれば、結婚式披露宴等のイベントで撮影された動画を視聴する場合において、これらの動画について表示されるサムネイル画像を用いて、所望するシーンの先頭から動画の再生を開始させることができる。

しかしながら、結婚式披露宴等のイベントで撮影が行われる場合には、撮影時間が比較的長くなることが多い。このように撮影時間が比較的長いイベントで複数の出席者により撮影された複数の動画を閲覧する場合において、上述の従来技術を用いてサムネイル画像を表示すると、表示されるサムネイル画像の数が非常に多くなることがある。この場合には、サムネイル画像の選択に要する時間が長くなり、サムネイル画像の選択作業が煩雑となる。

また、これらの複数の動画は、撮影者の位置に応じて異なる角度で撮影されることが多いため、同一シーンであっても異なるシーンのようにサムネイル画像が表示されることも考えられる。この場合には、同一のシーンを複数回選択することがあり、効率的に視聴することができない。このように、同一のイベントにおいて複数の撮像装置により撮影された複数の動画を視聴する場合には、効率的に視聴することが困難である。

そこで、本発明は、同一のイベントにおいて複数の撮像装置により撮影された画像を効率的に閲覧することを目的とする。

本発明は、上記課題を解決するためになされたものであり、その第１の側面は、時刻情報が関連付けられた複数の画像を記憶する画像記憶手段と、上記画像記憶手段に記憶されている各画像の特徴量を抽出する特徴量抽出手段と、上記画像記憶手段に記憶されている各画像のうちの撮影時刻が重複している重複部分について当該重複部分に含まれる画像のうちから少なくとも１つの画像を当該重複部分に含まれる画像に係る特徴量に基づいて選択する画像選択手段と、上記選択された画像に基づいて上記画像記憶手段に記憶されている複数の画像に関する要約画像を作成する要約画像作成手段とを具備することを特徴とする画像処理装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、複数の画像のうちの撮影時刻が重複している重複部分について、この重複部分に含まれる画像のうちから少なくとも１つの画像を、その重複部分に含まれる画像に係る特徴量に基づいて選択し、この選択された画像に基づいて、複数の画像に関する要約画像を作成するという作用をもたらす。

また、この第１の側面において、上記抽出された各特徴量を重み付け加算した値であるダイジェストスコアを画像毎に算出するダイジェストスコア算出手段をさらに具備し、上記画像選択手段は、上記重複部分に含まれる画像について上記算出されたダイジェストスコアを比較して最も高いダイジェストスコアに対応する１つの画像を選択することができる。これにより、各特徴量を重み付け加算した値であるダイジェストスコアを画像毎に算出し、複数の画像の重複部分に含まれる画像について、その算出されたダイジェストスコアを比較して、最も高いダイジェストスコアに対応する１つの画像を選択するという作用をもたらす。

また、この第１の側面において、上記要約画像作成手段は、上記選択された画像を時系列に並べて上記要約画像を作成することができる。これにより、選択された画像を時系列に並べて要約画像を作成するという作用をもたらす。

また、この第１の側面において、上記画像記憶手段に記憶されている画像は、時系列に撮影された動画であり、上記特徴量抽出手段は、上記画像記憶手段に記憶されている各動画の所定区間毎の特徴量を時系列に抽出し、上記画像選択手段は、上記画像記憶手段に記憶されている各動画のうちの撮影時刻が重複している区間において少なくとも１つの動画部分を上記区間に対応する特徴量に基づいて選択し、上記要約画像作成手段は、上記選択された動画部分に基づいて上記要約画像を作成することができる。これにより、複数の動画のうちの撮影時刻が重複している区間において、少なくとも１つの動画部分をその区間に対応する特徴量に基づいて選択し、この選択された動画部分に基づいて要約画像を作成するという作用をもたらす。

また、この第１の側面において、上記画像記憶手段に記憶されている複数の動画のうちで少なくとも一部の撮影時刻が他の動画と重複している動画を含む区間である重複撮影区間を上記時刻情報に基づいて抽出する重複撮影区間抽出手段をさらに具備し、上記特徴量抽出手段は、上記抽出された重複撮影区間に含まれる各動画の特徴量のみを抽出し、上記画像選択手段は、上記抽出された重複撮影区間において上記撮影時刻が重複している区間における動画部分を選択することができる。これにより、複数の動画のうちで少なくとも一部の撮影時刻が他の動画と重複している動画を含む重複撮影区間を抽出し、この抽出された重複撮影区間において、撮影時刻が重複している区間における動画部分を選択するという作用をもたらす。また、この場合において、上記重複撮影区間は、上記画像記憶手段に記憶されている複数の動画のうちで少なくとも一部の撮影時刻が他の動画と重複している動画を含む区間であって当該区間に所定数以上の動画を含む区間であることができる。これにより、所定数以上の動画を含む重複撮影区間において、撮影時刻が重複している区間における動画部分を選択するという作用をもたらす。

また、この第１の側面において、上記画像選択手段は、上記画像記憶手段に記憶されている複数の動画のうちで撮影時刻が重複していない動画部分については当該動画部分を選択し、上記要約画像作成手段は、上記選択された各動画部分を時系列に並べて上記要約画像を作成することができる。これにより、複数の動画のうちで撮影時刻が重複していない動画部分については、この動画部分を選択して、撮影時刻が重複している区間において選択された動画部分と、撮影時刻が重複していない区間における動画部分とを時系列に並べて要約画像を作成するという作用をもたらす。

また、この第１の側面において、上記抽出された各特徴量を重み付け加算した値であるダイジェストスコアを各動画の所定区間毎に算出するダイジェストスコア算出手段と、所定の閾値を保持する閾値保持手段と、上記算出されたダイジェストスコアのうちの上記閾値以上のダイジェストスコアに対応するダイジェスト区間を抽出するダイジェスト区間抽出手段とをさらに具備し、上記画像選択手段は、上記抽出されたダイジェスト区間において上記算出されたダイジェストスコアを比較して最も高いダイジェストスコアに対応する動画部分を選択することができる。これにより、ダイジェストスコアのうちの閾値以上のダイジェストスコアに対応するダイジェスト区間を抽出して、この抽出されたダイジェスト区間においてダイジェストスコアを比較し、最も高いダイジェストスコアに対応する動画部分を選択するという作用をもたらす。

また、本発明の第２の側面は、時刻情報が関連付けられた複数の画像を入力する画像入力手段と、上記入力された各画像の特徴量を抽出する特徴量抽出手段と、上記入力された各画像のうちの撮影時刻が重複している重複部分について当該重複部分に含まれる画像のうちから少なくとも１つの画像を当該重複部分に含まれる画像に係る特徴量に基づいて選択する画像選択手段と、上記選択された画像に基づいて上記入力された複数の画像に関する要約画像を作成する要約画像作成手段とを具備することを特徴とする画像処理装置およびその処理方法ならびに当該方法をコンピュータに実行させるプログラムである。これにより、複数の画像のうちの撮影時刻が重複している重複部分について、この重複部分に含まれる画像のうちから少なくとも１つの画像を、その重複部分に含まれる画像に係る特徴量に基づいて選択し、この選択された画像に基づいて、複数の画像に関する要約画像を作成するという作用をもたらす。

本発明によれば、同一のイベントにおいて複数の撮像装置により撮影された画像を効率的に閲覧することができるという優れた効果を奏し得る。

次に本発明の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の実施の形態における画像処理装置１００の機能構成例を示すブロック図である。この画像処理装置１００は、撮影画像記憶部１１０と、重複撮影区間抽出部１２０と、特徴量抽出部１３０と、ダイジェストスコア算出部１４０と、ダイジェスト画像選択部１５０と、ダイジェスト画像作成部１６０と、ダイジェスト画像記憶部１７０と、表示制御部１８０と、操作受付部１９０と、表示部２００とを備える。なお、この画像処理装置１００は、例えば、動画コンテンツの編集機能を備えるパーソナルコンピュータで実現することができる。

撮影画像記憶部１１０は、デジタルビデオカメラ等で撮影された撮影画像等の動画コンテンツを記憶する記憶部である。また、撮影画像記憶部１１０に記憶される動画コンテンツには、その撮影時刻が関連付けられている。撮影画像記憶部１１０に記憶される動画コンテンツは、例えば、１または複数のデジタルビデオカメラで撮影されて画像処理装置１００に入力された動画である。なお、本発明の実施の形態では、撮影画像記憶部１１０に複数の動画コンテンツが記録されている場合について説明する。また、本発明の実施の形態では、重要なシーンは、複数の人により同時に撮影されるという経験則に基づいて、複数の人により同時に撮影されていた時間帯におけるシーンを「盛上りシーン」と定義する。また、「盛上りシーン」における動画の重複部分から選択された各シーンを「みどころシーン」と定義する。

重複撮影区間抽出部１２０は、撮影画像記憶部１１０に記憶されている各動画コンテンツの撮影時刻に基づいて、同一時間帯に複数の撮影が行われた撮影区間を抽出するものであり、抽出された撮影区間を特徴量抽出部１３０に出力する。また、同一時間帯に複数の撮影が行われた撮影区間に所定数以上の動画コンテンツが存在することを条件に抽出することができる。このように抽出された撮影区間は、盛上りシーンに対応する区間である。これにより、複数の動画コンテンツから盛上りシーンを抽出して、この抽出された盛上りシーンを単位として各盛上りシーンを時系列順に並べることができる。この盛上りシーンとして、例えば、結婚式披露宴においては、ケーキカットや友人による演芸等のシーンが考えられる。また、運動会においては、リレー競争や踊り等のシーンが考えられる。なお、この盛上りシーンの抽出については、図３を参照して詳細に説明する。

特徴量抽出部１３０は、撮影画像記憶部１１０に記憶されている複数の動画コンテンツのうちで、重複撮影区間抽出部１２０により抽出された撮影区間に含まれる動画コンテンツについて各種画像解析を行い、動画コンテンツの所定区間毎（例えば、毎秒）の特徴量を抽出するものである。そして、抽出された特徴量をダイジェストスコア算出部１４０に出力する。なお、これらの盛上りシーンや特徴量の抽出は、例えば、動画コンテンツが撮影画像記憶部１１０に記録されたタイミングで随時行うようにしてもよく、ユーザからのダイジェスト画像生成指示等に基づいて行うようにしてもよい。なお、この特徴量の抽出については、図４（ａ）乃至（ｅ）を参照して詳細に説明する。

ダイジェストスコア算出部１４０は、特徴量抽出部１３０により抽出された各特徴量に所定の重み付け係数をかけた値を加算した値であるダイジェストスコアを動画コンテンツの所定区間毎に算出するものである。そして、算出された各動画コンテンツのダイジェストスコアをダイジェスト画像選択部１５０に出力する。なお、このダイジェストスコアの算出については、図４（ｆ）を参照して詳細に説明する。

ダイジェスト画像選択部１５０は、重複撮影区間抽出部１２０により抽出された撮影区間に含まれる各動画コンテンツについて、ダイジェストスコア算出部１４０により算出された各動画コンテンツのダイジェストスコアを時系列で比較して、これらの撮影区間においてダイジェストスコアが最も高い部分に対応する動画コンテンツを選択するものである。そして、選択された動画コンテンツに対応するアドレス情報（撮影画像記憶部１１０における記録位置を示すアドレス情報）をダイジェスト画像作成部１６０に出力する。なお、これらの動画コンテンツの選択については、図６を参照して詳細に説明する。

ダイジェスト画像作成部１６０は、ダイジェスト画像選択部１５０から出力されたアドレス情報に基づいて、ダイジェスト画像選択部１５０により選択された動画コンテンツを撮影画像記憶部１１０から読み出して、読み出された各動画コンテンツを時系列に並べてダイジェスト画像を作成するものである。ここで、ダイジェスト画像は、ダイジェスト画像選択部１５０により選択された動画コンテンツが時系列に並べて作成される動画である。そして、作成されたダイジェスト画像をダイジェスト画像記憶部１７０に出力して記憶させる。なお、これらのダイジェスト画像の作成については、図６を参照して詳細に説明する。

ダイジェスト画像記憶部１７０は、ダイジェスト画像作成部１６０により作成されたダイジェスト画像を記憶するものである。また、ダイジェスト画像記憶部１７０は、表示制御部１８０からの制御に基づいて、ダイジェスト画像を表示制御部１８０に出力する。

表示制御部１８０は、動画コンテンツのダイジェスト画像を再生させる旨の操作入力が操作受付部１９０により受け付けられた場合には、ダイジェスト画像記憶部１７０に記憶されているダイジェスト画像を読み出し、読み出されたダイジェスト画像を表示部２００に表示させるものである。

操作受付部１９０は、各種操作キーを備え、これらのキー等から操作入力を受け付けると、受け付けた操作入力の内容を表示制御部１８０に出力するものである。例えば、ダイジェスト画像を再生させるための指示をするダイジェスト再生ボタン等が操作受付部１９０に設けられる。なお、ダイジェスト再生ボタン等を表示部２００に表示させ、これらのボタンを操作受付部１９０の操作入力に応じて押下させるようにしてもよい。また、操作受付部１９０の少なくとも一部と表示部２００とをタッチパネルとして一体化して構成するようにしてもよい。

表示部２００は、表示制御部１８０からの制御に基づいて、ダイジェスト画像記憶部１７０に記憶されているダイジェスト画像を表示する表示部である。表示部２００として、例えば、液晶表示装置（ＬＣＤ：Liquid Crystal Display）を用いることができる。

次に、１つイベント（例えば、結婚式披露宴）において複数の撮像装置で撮影された複数の動画コンテンツを再生する場合について図面を参照して詳細に説明する。

図２は、結婚式披露宴において撮影された動画ファイル３１０、３２０、３３０に含まれる画像を模式的に示す図である。ここでは、動画ファイル３１０に含まれる画像３１１乃至３１６と、動画ファイル３２０に含まれる画像３２１、３２２と、動画ファイル３３０に含まれる画像３３１、３３２とのそれぞれを、時間軸ｔ１乃至ｔ３に沿って並べた場合を一例として説明する。なお、動画ファイル３１０、３２０、３３０は、Ａ氏、Ｂ氏、Ｃ氏の３人によって、結婚式披露宴におけるケーキカットのシーンが撮影された動画ファイルであるものとする。また、画像３１２および３１３と画像３２１および３２２とは、同じ時刻に撮影された動画の一部であり、画像３１５および３１６と画像３３１および３３２とは、同じ時刻に撮影された動画の一部であるものとする。

図２（ａ）には、Ａ氏によって撮影された動画ファイル３１０を示すとともに、新郎新婦がケーキカットをする場面において比較的遠くの位置から新郎新婦の正面に向かって撮影された動画ファイル３１０に含まれる画像３１１乃至３１６を示す。図２（ｂ）には、Ｂ氏によって撮影された動画ファイル３２０を示すとともに、新郎新婦がケーキカットをする場面の前半部分のみを比較的近くの位置から新郎新婦の右側に向かって撮影された動画ファイル３２０に含まれる画像３２１および３２２を示す。図２（ｃ）には、Ｃ氏によって撮影された動画ファイル３３０を示すとともに、新郎新婦がケーキカットをする場面の後半部分のみを、Ａ氏とＢ氏の中間程度の位置から新郎新婦の左側に向かって撮影された動画ファイル３３０に含まれる画像３３１および３３２を示す。

図２（ａ）乃至（ｃ）に示すように、結婚式披露宴におけるケーキカットシーンのように盛り上るシーンについては、複数の人により同時に撮影される傾向がある。このように、同じシーンが時間的に重なって撮影された動画ファイルを視聴する場合には、例えば、Ａ氏により撮影された画像３１１乃至３１６を含む動画ファイル３１０を再生した後に、Ｂ氏により撮影された画像３２１および３２２を含む動画ファイル３２０を再生し、さらに、Ｃ氏により撮影された画像３３１および３３２を含む動画ファイル３３０を再生することが考えられる。しかしながら、動画ファイル３１０の中で、画像３１２および３１３を含む記録部分３１７と、画像３１５および３１６を含む記録部分３１８とは、動画ファイル３２０および３３０と同じシーンを異なる角度と距離で撮影されたものである。このため、上述したように動画ファイル３１０、３２０、３３０を順次再生する場合には、既に見ているシーンを複数回見ることになる。この場合には、動画ファイル３１０、３２０、３３０を順次再生するための時間が長くなるとともに、既に視聴したシーンである動画ファイル３２０、３３０については視聴の興味が低減することも考えられる。

そこで、本発明の実施の形態では、複数人により撮影された動画コンテンツであって同じシーンを含む複数の動画コンテンツを視聴する場合には、各人により撮影された視点の異なる各動画コンテンツの適切な部分を組み合わせて再生する。これにより、再生時間を短縮させるとともに、視聴者の興味を維持する再生を行うことができる。

例えば、図２（ａ）乃至（ｃ）に示す動画ファイル３１０、３２０、３３０については、動画ファイル３１０に含まれる新郎新婦よりも、動画ファイル３２０または３３０に含まれる新郎新婦の方が大きく撮影されている。そこで、例えば、動画ファイル３１０において、画像３１２および３１３を含む記録部分３１７の代わりに、画像３２１および３２２を含む動画ファイル３２０を入れ替えるとともに、画像３１５および３１６を含む記録部分３１８の代わりに、画像３３１および３３２を含む動画ファイル３３０を入れ替える編集をする。このように動画ファイル３１０、３２０、３３０を編集することによって、画像３１１を含む動画ファイル３１０の記録部分を再生した後に、画像３２１および３２２を含む動画ファイル３２０を再生することができる。続いて、画像３１４を含む動画ファイル３１０の記録部分を再生した後に、画像３３１および３３２を含む動画ファイル３３０を再生することができる。このように再生をすることによって、ケーキカットシーンの全体について、動画ファイル３２０および３３０に対応する撮影区間については新郎新婦の大きな姿を視聴することができるとともに、動画ファイル３２０および３３０に含まれていない撮影区間については動画ファイル３１０のケーキカットシーンを視聴することができる。これにより、ケーキカットシーンの全体を時系列に迅速に視聴することができるとともに、ケーキカットシーンの各部において適切な動画コンテンツを視聴することができる。これらの編集については、図３乃至図６を参照して詳細に説明する。

次に、複数の動画コンテンツからダイジェスト画像を作成するダイジェスト画像作成方法について図面を参照して詳細に説明する。最初に、複数の動画コンテンツから、盛上りシーンに対応する撮影区間を抽出する方法について図面を参照して詳細に説明する。

図３は、時系列に並べた３つの動画群４１０、４２０、４３０を模式的に示す図である。ここでは、動画群４１０、４２０、４３０は、同一のイベントにおいて３人により異なる角度で撮影された複数の動画から構成される動画群である。すなわち、動画群４１０は、そのイベントにおいて複数の時間帯に撮影された複数の動画４１１および４１２から構成される動画群である。また、動画群４２０は、そのイベントにおいて複数の時間帯に撮影された複数の動画４２１および４２２から構成される動画群である。さらに、動画群４３０は、そのイベントにおいて複数の時間帯に撮影された複数の動画４３１乃至４３６から構成される動画群である。図３においては、これらの動画４１１、４１２、４２１、４２２、４３１乃至４３６を撮影時刻に沿って表し、これらの各動画の記録部分を斜線で示す。

図３に示すように、同一のイベントにおいて複数人により撮影された動画４１１、４１２、４２１、４２２、４３１乃至４３６が存在する場合には、これらの各動画について、盛上りシーンに対応する撮影区間が抽出される。例えば、同一時間帯において、所定の数以上の人により撮影された動画が存在するか否かに基づいて盛上りシーンに対応する撮影区間を抽出することができる。例えば、撮影時刻が重複する動画が複数存在する撮影区間を抽出して、この撮影区間にＮ以上の動画が存在するか否かに基づいて、盛上りシーンに対応する撮影区間を抽出することができる。ここで、Ｎは、２以上の整数であり、ユーザにより設定可能とすることができる。例えば、Ｎの値を比較的高い値に設定した場合には、多数の人により撮影されたシーンのみをダイジェスト生成することが可能である。一方、Ｎの値を比較的低い値に設定した場合には、少数の人により撮影されたシーンについてもダイジェスト生成の対象とすることが可能である。本発明の実施の形態では、Ｎ＝２が設定されている場合について説明する。

例えば、図３に示すように、動画４１１、４２１、４３１乃至４３４の時間帯には、撮影時刻が重複する動画が２つ以上存在するため、これらの動画を含む区間が盛上りシーンに対応する撮影区間４５０として抽出される。一方、動画４１２、４２２、４３５、４３６の時間帯には、撮影時刻が重複する動画が存在しないため、これらの動画を含む区間からは盛上りシーンが抽出されない。

次に、盛上りシーンに対応する撮影区間に含まれる動画からダイジェストスコアを算出する算出方法について図面を参照して詳細に説明する。

図４は、動画５００から抽出された特徴量およびこの特徴量に基づいて算出されたダイジェストスコアの一例を示す図である。ここで、動画５００は、盛上りシーンに対応する撮影区間に含まれる動画であるものとする。

図４（ａ）は、動画５００に含まれる顔の有無を示す特徴量を表すグラフであり、図４（ｂ）は、動画５００に含まれる顔の数の多少を示す特徴量を表すグラフであり、図４（ｃ）は、動画５００に含まれる顔のズームアップの有無を示す特徴量を表すグラフであり、図４（ｄ）は、動画５００に含まれるスピーチ（会話）の有無を示す特徴量を表すグラフであり、図４（ｅ）は、動画に含まれる笑い声の有無を示す特徴量を表すグラフである。ここで、図４（ａ）乃至（ｅ）に示すグラフにおいて、横軸は撮影時刻を示し、縦軸は特徴量を示す。なお、この例では、抽出された特徴量を「１」または「０」で表した場合を例にして説明するが、抽出された特徴量が「１」または「０」以外の連続値となる場合についても同様に適用することができる。

顔の有無を示す特徴量は、動画に顔が含まれるか否かを示す特徴量であり、例えば、動画に顔が含まれる場合には特徴量として「１」が記録され、動画に顔が含まれない場合には特徴量として「０」が記録される。

顔の数の多少を示す特徴量は、動画に含まれる顔の数を示す特徴量であり、例えば、動画に含まれる顔の数が比較的少ない場合には特徴量として「１」が記録され、動画に含まれる顔の数が比較的多い場合には特徴量として「０」が記録される。

顔のズームアップの有無を示す特徴量は、動画に含まれる顔がズームアップされているか否かを示す特徴量であり、例えば、動画に含まれる顔がズームアップされている場合（画面上における顔が比較的大きい場合）には特徴量として「１」が記録され、動画に含まれる顔がズームアップされていない場合には特徴量として「０」が記録される。

スピーチ（会話）の有無を示す特徴量は、動画にスピーチが含まれるか否かを示す特徴量であり、例えば、動画にスピーチが含まれる場合（動画に対応する音声情報にスピーチが含まれる場合）には特徴量として「１」が記録され、動画にスピーチが含まれない場合には特徴量として「０」が記録される。

笑い声の有無を示す特徴量は、動画に笑い声が含まれるか否かを示す特徴量であり、例えば、動画に笑い声が含まれる場合（動画に対応する音声情報に笑い声が含まれる場合）には特徴量として「１」が記録され、動画に笑い声が含まれない場合には特徴量として「０」が記録される。

図４（ａ）乃至（ｅ）に示すように、動画の特徴量を抽出する場合には、動画の映像および音声が時系列に解析され、この映像および音声の解析結果に基づいて各特徴量が時系列に抽出されて記録される。なお、映像および音声の解析方法の詳細については、公知の各種解析方法を用いることができる。また、その他の特徴量の抽出方法を用いるようにしてもよい。

本発明の実施の形態では、動画から抽出される特徴量として、「動画に含まれる顔の有無」、「動画に含まれる顔の数の多少」、「動画に含まれる顔のズームアップの有無」、「動画に含まれるスピーチ（会話）の有無」、「動画に含まれる笑い声の有無」を用いる場合を例にして説明するが、動画から抽出される特徴量として、これらの特徴量以外の他の特徴量を用いるようにしてもよい。例えば、特徴量として、「シーンチェンジ」、「顔の位置」、「顔の方向」、「カメラワーク（パン、チルト、ズーム）」、「音量」、「映っている人」、「映っているモノ」等を用いることができる。

図４（ｆ）は、図４（ａ）乃至（ｅ）に示す各特徴量に基づいて求められた値であるダイジェストスコアを表すグラフである。なお、図４（ｆ）に示すグラフにおいて、横軸は撮影時刻を示し、縦軸はダイジェストスコアを示す。

ダイジェストスコアは、図４（ａ）乃至（ｅ）に示す各特徴量に重み付け係数（weight）をかけた値が加算されて算出される値である。

例えば、「動画に含まれる顔の有無」を示す特徴量ＦＳの重み付け係数を「０．５」とし、「動画に含まれる顔の数の多少」を示す特徴量ＦＮの重み付け係数を「１．０」とし、「動画に含まれる顔のズームアップの有無」を示す特徴量ＦＺの重み付け係数を「２．０」とし、「動画に含まれるスピーチ（会話）の有無」を示す特徴量ＳＰの重み付け係数を「１．０」とし、「動画に含まれる笑い声の有無」を示す特徴量ＳＭの重み付け係数を「３．０」として、次式を用いてダイジェストスコアＤＳを算出することができる。
ＤＳ＝ＦＳ×０．５＋ＦＮ×１．０＋ＦＺ×２．０＋ＳＰ×１．０＋ＳＭ×３．０

図４（ｆ）には、この式を用いて算出されたダイジェストスコアの一例を示す。ここで、ダイジェストスコアの算出に用いる重み付け係数について説明する。重み付け係数は、各特徴量が映像シーンでの盛上りにどれだけ寄与するかを示す係数である。この例では、笑い声が有る区間の重み付け係数を「３．０」とし、顔がズームされている区間の重み付け係数を「２．０」として、これらの重み付け係数を高い値に設定している。これは、笑い声がある映像シーンや、人がズームアップされている映像シーンは、「面白い」または「盛り上がっている」ことが多いという経験則に基づくものである。また、次の（１）乃至（３）に示す統計的な学習によって求められたパラメータを重み付け係数として用いるようにしてもよい。
（１）撮影された動画を見ながら、「盛り上っている」と思われる場面をユーザが手動でマーキングする。
（２）ユーザによりマーキングされた場面に対応する各特徴量とそのマーキングされた位置との相関を求める。
（３）各特徴量のうちで、ユーザによりマーキングされた場面と相関の高い特徴量が、ユーザによる関心が高く、ダイジェスト画像に対する寄与率が高いと判断し、この特徴量に対する重み付け係数を比較的高い値に設定する。

また、これらの重み付け係数を、ユーザからのフィードバックにより更新されるようにしてもよい。例えば、操作受付部１９０に「肯定的ボタン」および「否定的ボタン」を設け、ダイジェスト画像作成部１６０により作成されたダイジェスト画像の再生中または再生後に、「肯定的ボタン」または「否定的ボタン」をユーザに押下してもらう。そして、この押下により、ダイジェスト画像に対するユーザからのフィードバックを得られるようにする。例えば、ダイジェスト画像における笑い声の部分の再生中に「肯定的ボタン」が押下された場合には、「動画に含まれる笑い声の有無」を示す特徴量の重み付け係数を高く設定する。また、例えば、ダイジェスト画像における顔の数が多く含まれる部分の再生中に「否定的ボタン」が押下された場合には、「動画に含まれる顔の数の多少」を示す特徴量の重み付け係数を低く設定する。このように、ユーザからのフィードバックによって、重み付け係数をパーソナライズするようにしてもよい。

さらに、ユーザが各重み付け係数の値を操作受付部１９０から入力することによって、ユーザの好みに応じた重み付け係数を設定するようにしてもよい。

図５は、図３に示す動画群４１０、４２０、４３０から抽出された撮影区間４５０に含まれる動画４１１、４２１、４３１乃至４３４を示す図である。また、図５には、各動画について算出されたダイジェストスコアを表すグラフを各動画の記録区間内に示す。例えば、図５（ａ）には、動画４１１について算出されたダイジェストスコアをグラフ４１４として示し、図５（ｂ）には、動画４２１について算出されたダイジェストスコアをグラフ４２４として示し、図５（ｃ）には、動画４３１乃至４３４について算出された各ダイジェストスコアをグラフ４３８乃至４４１として示す。

図５（ａ）乃至（ｃ）に示すように、動画群４１０、４２０、４３０から抽出された撮影区間４５０に含まれる動画４１１、４２１、４３１乃至４３４について、図４を用いて説明した算出方法によって、ダイジェストスコアが算出される。

図６は、図５に示す撮影区間４５０に含まれる動画４１１、４２１、４３１乃至４３４について算出されたダイジェストスコアを表すグラフと、このダイジェストスコアに基づいて作成されたダイジェスト画像４８０を示す図である。図６（ａ）には、図５（ａ）乃至（ｃ）に示すグラフ４１４、４２４、４３８乃至４４１を重ね合わせた状態を示す。図６（ｂ）には、図６（ａ）に示すグラフ４１４、４２４、４３８乃至４４１の比較結果に対応させたダイジェスト画像４８０を示す。

図６（ａ）に示すように、撮影区間４６１、４６３乃至４６９、４７１においては、同じ時間帯において複数のグラフが重なっている。すなわち、撮影区間４６１、４６３乃至４６９、４７１においては、同じ時間帯において複数の動画が重複している。このように、撮影区間４５０において複数の動画が重複する撮影区間については、撮影区間に含まれる各画像のダイジェストスコアを比較して、ダイジェストスコアの値が最も大きい画像が選択される。

例えば、撮影区間４６１においては、動画４２１および４３１（図３に示す）の一部または全部が含まれる。そして、図６（ａ）に示すように、動画４２１に対応するグラフ４２４よりも、動画４３１に対応するグラフ４３８が高い位置にあるため、グラフ４２４に対応する画像のダイジェストスコアの値よりも、グラフ４３８に対応する画像のダイジェストスコアの値が大きい。このため、撮影区間４６１においては、グラフ４３８に対応する動画４３１の全部がダイジェスト画像として選択される。

また、同様に、２つの動画が重複する撮影区間４６３においては、グラフ４２４に対応する動画４２１の一部がダイジェスト画像として選択され、３つの動画が重複する撮影区間４６４においては、グラフ４３９に対応する動画４３２の全部がダイジェスト画像として選択され、２つの動画が重複する撮影区間４６５においては、グラフ４１４に対応する動画４１１の一部がダイジェスト画像として選択され、３つの動画が重複する撮影区間４６７においては、グラフ４１４に対応する動画４１１の一部がダイジェスト画像として選択され、３つの動画が重複する撮影区間４６８においては、グラフ４２４に対応する動画４２１の一部がダイジェスト画像として選択され、２つの動画が重複する撮影区間４６９においては、グラフ４２４に対応する動画４２１の一部がダイジェスト画像として選択され、２つの動画が重複する撮影区間４７１においては、グラフ４２４に対応する動画４２１の一部がダイジェスト画像として選択される。

また、複数の動画が重なっていない撮影区間４６２、４７０、４７２においては、各撮影区間に含まれる動画がダイジェスト画像として選択される。

このように、ダイジェストスコアの比較によって、撮影区間４５０において選択された各動画の一部または全部を編集して、図６（ｂ）に示すダイジェスト画像４８０が作成される。なお、図６（ｂ）に示すダイジェスト画像４８０における斜線は、図３に示す動画群４１０、４２０、４３０に対応する斜線である。図６（ｂ）に示すように、この例では、同一の撮影区間内において、複数の動画が記録されている場合には、何れかの動画の部分を用いることにする。

このように、複数の人により同じシーンが別の角度から撮影された複数の動画について、その撮影時刻とその特徴量とに基づいて、編集・再生することができる。これにより、複数の人により同じシーンが別の角度から撮影された複数の動画について、ユーザによって煩雑な編集作業をしなくても、いわゆる「良いとこ取り」をした編集画像であるダイジェスト画像を再生することができる。

次に、本発明の実施の形態における画像処理装置１００の動作について図面を参照して説明する。

図７は、画像処理装置１００によるダイジェスト画像の作成処理の処理手順を示すフローチャートである。

最初に、撮影画像記憶部１１０に記憶されている動画が入力される（ステップＳ９１１）。この入力される動画は、１または複数の動画である。

続いて、入力された動画の中に、何れかの撮影時刻が重複する複数の動画が存在するか否かが判断される（ステップＳ９１２）。入力された動画の中に、撮影時刻が重複する複数の動画が存在しない場合には（ステップＳ９１２）、ダイジェスト画像の対象となる動画が存在しないため、ダイジェスト画像の作成処理の動作を終了する。例えば、図３に示す動画群４１０、４２０、４３０の場合には、動画４１１、４２１、４３１乃至４３４のそれぞれが少なくとも他の動画と撮影時刻が重複している。一方、動画４１２、４２２、４３５、４３６については、他の動画と撮影時刻が重なっていない。

入力された動画の中に、何れかの撮影時刻が重複する複数の動画が存在する場合には（ステップＳ９１２）、撮影時刻が重複する複数の動画が存在する区間内にＮ以上の動画が存在するか否かが判断される（ステップＳ９１３）。この例では、Ｎ＝２が設定されているものとする。例えば、図３に示す動画群４１０、４２０、４３０において、他の動画と撮影時刻が重複する動画４１１、４２１、４３１乃至４３４を含む撮影区間４５０においては、２以上の動画が存在する。なお、撮影時刻が重複する複数の動画が存在する区間内にＮ以上の動画が存在しない場合には（ステップＳ９１３）、ダイジェスト画像の対象となる動画が存在しないため、ダイジェスト画像の作成処理の動作を終了する。

続いて、撮影時刻が重複する複数の動画が存在する区間内にＮ以上の動画が存在する場合には（ステップＳ９１３）、その区間を盛上りシーンに対応する撮影区間として、この撮影区間に含まれる動画が抽出される（ステップＳ９１４）。例えば、図３に示す動画群４１０、４２０、４３０については、動画４１１、４２１、４３１乃至４３４のそれぞれが抽出される。

続いて、抽出された各動画について特徴量が抽出される（ステップＳ９１５）。例えば、図４（ａ）乃至（ｅ）に示すように、各動画についての特徴量が時系列で抽出される。続いて、抽出された特徴量が重み付け加算されて、ダイジェストスコアが動画毎に時系列で算出される。例えば、図４（ｆ）に示すように、各動画についてのダイジェストスコアが算出される。

続いて、算出された各画像のダイジェストスコアが撮影時間の時間軸上において比較される（ステップＳ９１７）。例えば、図５に示すように、動画４１１、４２１、４３１乃至４３４について算出されたダイジェストスコアを、図６（ａ）に示すように、撮影時刻の時間軸上で比較する。

続いて、各画像のダイジェストスコアの比較結果に基づいて、盛上りシーンに対応する撮影区間の各部で最も値が大きいダイジェストスコアに対応する動画部分が選択される（ステップＳ９１８）。例えば、図６（ａ）に示すように、撮影区間４５０に含まれる区間４６１乃至４７２において、ダイジェストスコアの比較結果に基づいて、ダイジェストスコアの値が最も大きい動画部分が選択される。

続いて、選択された各部に対応する動画部分が撮影画像記憶部１１０から読み出され、この読み出された動画部分が撮影時刻の時間軸に応じて並べられてダイジェスト画像が作成される（ステップＳ９１９）。例えば、図６（ａ）に示すように、撮影区間４５０に含まれる区間４６１乃至４７２における比較結果に基づいて選択された動画部分が、図６（ｂ）に示すように、ダイジェスト画像４８０として作成される。

続いて、作成されたダイジェスト画像がダイジェスト画像記憶部１７０に記憶される（ステップＳ９２０）。

次に、本発明の実施の形態における画像処理装置を含む画像処理システムについて図面を参照して詳細に説明する。

図８は、本発明の実施の形態における画像処理システム６００を示すシステム構成図である。画像処理システム６００は、画像処理装置６１０と、撮像装置６２０、６３０、６４０とで構成されている画像処理システムである。

撮像装置６２０、６３０、６４０は、デジタルビデオカメラ等の画像記録装置であり、撮像された動画を撮影画像記憶部６２１、６３１、６４１に記憶する。

画像処理装置６１０は、本発明の実施の形態における画像処理装置１００の一部を変形したものであり、１または複数の撮像装置と接続するための接続端子（図示せず）が複数設けられ、この接続端子を介して撮像装置の動画が撮影画像入力部６１１から入力される。この例では、画像処理装置６１０と、撮像装置６２０、６３０、６４０とが、それぞれＵＳＢ（Universal Serial Bus）ケーブル等の装置間インタフェースで接続されている。なお、この装置間インタフェースとして、ＵＳＢケーブル等の有線ケーブル以外に、ＵＷＢ（Ultra Wide Band：超広帯域無線）等の無線インタフェースを用いることができる。

画像処理装置６１０は、装置間インタフェースで接続されている撮像装置６２０、６３０、６４０の撮影画像記憶部６２１、６３１、６４１に記憶されている動画を読み出し、読み出された動画を表示部６１２に表示して再生することが可能な画像再生装置である。また、画像処理装置６１０は、撮像装置６２０、６３０、６４０のそれぞれから読み出した複数の動画について、画像処理装置１００と同様に、ダイジェスト画像を作成して、表示部６１２に表示する。

図９は、本発明の実施の形態における画像処理システム６０１を示すシステム構成図である。画像処理システム６０１は、画像処理装置６１０と、撮像装置６２５、６３５、６４５とで構成されている画像処理システムである。

撮像装置６２５、６３５、６４５は、デジタルビデオカメラ等の画像記録装置であり、撮像部６２６、６３６、６４６で撮像された動画を、撮影画像送信部６２７、６３７、６４７から画像処理装置６１０に送信する。この例では、撮影画像送信部６２７、６３７、６４７から画像処理装置６１０に無線により送信する場合について説明するが、有線回線を介して送信する場合についても同様に適用することができる。

画像処理装置６１０は、図８に示す画像処理装置６１０に撮影画像受信部６１３を設けたものである。また、画像処理装置６１０は、撮像装置６２５、６３５、６４５から送信された動画を撮影画像受信部６１３で受信して、受信された動画を表示部６１２に表示して再生することが可能な画像再生装置である。また、画像処理装置６１０は、撮像装置６２５、６３５、６４５から送信された複数の動画を記憶しておき、これらの各動画について、図８に示す画像処理装置６１０と同様に、ダイジェスト画像を作成して、表示部６１２に表示する。このように、撮像装置に記憶部を備えずに、撮像装置により撮像された画像を画像処理装置に送信する場合についても、本発明の実施の形態を適用することができる。

図１０は、本発明の実施の形態における画像処理システム６０２を示すシステム構成図である。画像処理システム６０２は、撮像装置６５０、６６０、６７０で構成されている画像処理システムである。

撮像装置６５０、６６０、６７０は、デジタルビデオカメラ等の画像記録装置であるとともに、本発明の実施の形態における画像処理装置１００の一部を変形したものであり、それぞれがアドホックに無線接続されるものである。すなわち、撮像装置６５０、６６０、６７０は、複数の動画について、図８に示す画像処理装置６１０と同様に、ダイジェスト画像を作成して表示部に表示することができる。この例では、撮像装置６６０、６７０の撮像部６６１、６７１で撮像された動画を、撮影画像送信部６６４、６７４から撮像装置６５０に送信する場合について説明するが、他の各撮像装置間で送受信する場合についても同様に適用することができる。

例えば、撮像装置６５０は、撮像装置６６０、６７０から送信された動画を撮影画像受信部６５３で受信して、受信された動画を表示部６５２に表示して再生することができる。また、撮像装置６５０は、撮像装置６６０、６７０から送信された複数の動画を記憶しておき、これらの各動画について、図８に示す画像処理装置６１０と同様に、ダイジェスト画像を作成して、表示部６５２に表示する。このように、アドホックに無線接続される複数の撮像装置により撮像された画像を、１つの撮像装置に無線送信する場合についても、本発明の実施の形態を適用することができる。

このように、本発明の実施の形態によれば、重複撮影区間抽出部１２０により抽出された、いわゆる盛上りシーンに対応する撮影区間において、ダイジェストスコア算出部１４０により算出された各ダイジェストスコアをダイジェスト画像選択部１５０が比較処理することによって、視聴に最適な動画の部分を選択して、この動画の部分をダイジェスト画像作成部１６０が同期編集することができる。

これにより、複数のユーザにより同時に撮影された大量の動画を効果的に編集して視聴することができる。また、ダイジェスト画像を最初に視聴することによって、大量の動画の全体を迅速に把握することができるため、大量の動画を視聴するきっかけをユーザに提示することができる。また、例えば、結婚式披露宴等においては、複数の撮影者により同時に撮影されたシーンの中から「良いところ取り」されたダイジェスト画像を視聴することができる。また、運動会等においては、さまざまな視点からのリレー競争のシーンを容易に視聴することができる。

次に、本発明の実施の形態の変形について図面を参照して詳細に説明する。

図１１は、本発明の実施の形態の変形における画像処理装置７００の機能構成例を示すブロック図である。この画像処理装置７００は、撮影画像記憶部１１０と、重複撮影区間抽出部１２０と、特徴量抽出部１３０と、ダイジェストスコア算出部１４０と、ダイジェスト画像選択部１５０と、ダイジェスト画像作成部１６０と、ダイジェスト画像記憶部１７０と、表示制御部１８０と、操作受付部１９０と、表示部２００と、閾値保持部７１０と、ダイジェスト区間抽出部７２０とを備える。ここで、画像処理装置７００は、ダイジェスト画像選択部１５０、閾値保持部７１０、および、ダイジェスト区間抽出部７２０以外の構成は画像処理装置１００と同様であるため、これらの構成以外の構成についての説明は省略する。

閾値保持部７１０は、動画の各特徴量に基づいて算出されたダイジェストスコアを閾値処理するために用いる閾値を保持するものである。閾値として、例えば、「４．０」が保持されている。

ダイジェスト区間抽出部７２０は、重複撮影区間抽出部１２０により抽出された撮影区間に含まれる各動画について、閾値保持部７１０に保持されている閾値以上のダイジェストスコアに対応する記録区間を抽出するものである。そして、抽出された各記録区間をダイジェスト画像選択部１５０に出力する。なお、この記録区間の抽出については、図１２（ｆ）および（ｇ）を参照して詳細に説明する。

ダイジェスト画像選択部１５０は、ダイジェスト区間抽出部７２０により抽出された記録区間に含まれる各動画部分について、ダイジェストスコア算出部１４０により算出された各動画のダイジェストスコアを時系列で比較して、これらの記録区間においてダイジェストスコアが最も高い部分に対応する動画部分を抽出する。

図１２は、動画５００から抽出された特徴量およびこの特徴量に基づいて算出されたダイジェストスコアと、このダイジェストスコアおよび閾値に基づいて抽出された動画５００の記録部分の一例を示す図である。なお、図１２（ａ）乃至（ｅ）については、図４（ａ）乃至（ｅ）と同様であるため、ここでの説明を省略する。

図１２（ｆ）は、図１２（ａ）乃至（ｅ）に示す各特徴量に基づいて求められた値であるダイジェストスコアを表すグラフであり、このグラフは、図４（ｆ）に示すグラフと同様である。なお、図１２（ｆ）に示すグラフにおいて、横軸は撮影時刻を示し、縦軸はダイジェストスコアを示す。

本発明の実施の形態では、重複撮影区間抽出部１２０により抽出された撮影区間に含まれる動画の各特徴量に基づいて算出されたダイジェストスコアの全てを用いてダイジェスト画像を作成する例を示した。この変形例では、動画の各特徴量に基づいて算出されたダイジェストスコアを閾値処理し、閾値以上のダイジェストスコアを用いてダイジェスト画像を作成する例を示す。

図１２（ｆ）に示すように、閾値保持部７１０に保持されている閾値７１１以上のダイジェストスコアに対応する記録区間を用いてダイジェスト画像選択部１５０が動画の一部または全部を選択する。

図１２（ｇ）は、閾値７１１以上のダイジェストスコアに対応する記録区間７２１乃至７２６を撮影時刻に沿って示す図であり、閾値７１１以上のダイジェストスコアに対応する記録区間を斜線で示す。このように、閾値７１１以上のダイジェストスコアに対応する記録区間７２１乃至７２６について、ダイジェストスコア算出部１４０により算出された各動画のダイジェストスコアを時系列で比較して、これらの記録区間においてダイジェストスコアが最も高い部分に対応する動画部分が選択される。

なお、本発明の実施の形態の変形例では、閾値としては固定値「４．０」を用いる例を説明したが、各動画のダイジェストスコアの分布に応じて、閾値を調整するようにしてもよい。例えば、各記録区間において算出されたダイジェストスコアの上位１０％が選ばれるように、記録区間毎に閾値を設定するようにしてもよい。また、ユーザが閾値を操作受付部１９０から入力することによって、ユーザの好みに応じた閾値を設定するようにしてもよい。

このように、本発明の実施の形態の変形例によれば、閾値保持部７１０に保持されている閾値を用いて、視聴に最適な動画の部分を選択することによって、動画がさらに短縮されたダイジェスト画像を作成することができる。これにより、複数のユーザにより同時に撮影された大量の動画を効果的に編集してさらに迅速に視聴することができる。

なお、本発明の実施の形態では動画について説明したが、連続して撮影された写真画像等の画像についても本発明の実施の形態を適用することができる。また、作成されたダイジェスト画像を構成する各区間（例えば、図６に示す撮影区間４６１乃至４７２）の動画部分について代表サムネイル画像を抽出し、この各代表サムネイル画像をダイジェスト画像の再生前等に時系列に表示するようにしてもよい。

また、本発明の実施の形態では、画像処理装置を例にして説明したが、複数の画像を入力して表示することができる携帯端末装置等の画像表示装置や、デジタルスチルカメラ等の撮像装置に本発明の実施の形態を適用することができる。

なお、本発明の実施の形態は本発明を具現化するための一例を示したものであり、以下に示すように特許請求の範囲における発明特定事項とそれぞれ対応関係を有するが、これに限定されるものではなく本発明の要旨を逸脱しない範囲において種々の変形を施すことができる。

なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。

画像処理装置１００の機能構成例を示すブロック図である。結婚式披露宴において撮影された動画ファイル３１０、３２０、３３０に含まれる画像を模式的に示す図である。時系列に並べた３つの動画群４１０、４２０、４３０を模式的に示す図である。動画５００から抽出された特徴量およびこの特徴量に基づいて算出されたダイジェストスコアの一例を示す図である。撮影区間４５０に含まれる動画４１１、４２１、４３１乃至４３４を示す図である。撮影区間４５０に含まれる各動画のダイジェストスコアと、このダイジェストスコアに基づいて作成されたダイジェスト画像４８０を示す図である。画像処理装置１００によるダイジェスト画像の作成処理の処理手順を示すフローチャートである。画像処理システム６００を示すシステム構成図である。画像処理システム６０１を示すシステム構成図である。画像処理システム６０２を示すシステム構成図である。画像処理装置７００の機能構成例を示すブロック図である。動画５００から抽出された特徴量およびダイジェストスコアと、これらから抽出された動画５００の記録部分の一例を示す図である。

符号の説明

１００画像処理装置
１１０撮影画像記憶部
１２０重複撮影区間抽出部
１３０特徴量抽出部
１４０ダイジェストスコア算出部
１５０ダイジェスト画像選択部
１６０ダイジェスト画像作成部
１７０ダイジェスト画像記憶部
１８０表示制御部
１９０操作受付部
２００表示部
６００、６０１、６０２画像処理システム
６１０画像処理装置
６１１撮影画像入力部
６１２表示部
６２０、６３０、６４０撮像装置
６２１、６３１、６４１撮影画像記憶部
７００画像処理装置
７１０閾値保持部
７２０ダイジェスト区間抽出部

Claims

撮影時刻に関する時刻情報が関連付けられて撮影された複数の画像を記憶する画像記憶部と、
前記画像記憶部に記憶されている各画像に関連付けられている時刻情報に基づいて同一時間帯に複数の撮像装置により撮影が行われた撮影区間を抽出する区間抽出部と、
前記画像記憶部に記憶されている各画像から特徴量を抽出する特徴量抽出部と、
前記画像記憶部に記憶されている各画像のうち前記抽出された撮影区間において撮影された画像であって撮影時刻が互いに重複している各画像について当該撮影時刻が互いに重複している各画像のうちから少なくとも１つの画像を当該撮影時刻が互いに重複している各画像について抽出された前記特徴量に基づいて選択する画像選択部と、
前記選択された画像に基づいて前記画像記憶部に記憶されている複数の画像に関する要約画像を作成する要約画像作成部と
を具備する画像処理装置。
前記抽出された各特徴量を重み付け加算した値であるダイジェストスコアを画像毎に算出するダイジェストスコア算出部をさらに具備し、
前記画像選択部は、前記撮影時刻が互いに重複している各画像について前記算出されたダイジェストスコアを比較して最も高いダイジェストスコアに対応する１つの画像を選択する
請求項１記載の画像処理装置。
前記要約画像作成部は、前記選択された画像を時系列に並べて前記要約画像を作成する請求項１記載の画像処理装置。
前記画像記憶部に記憶されている画像は、時系列に撮影された動画であり、
前記特徴量抽出部は、前記画像記憶部に記憶されている各動画の所定区間毎の特徴量を時系列に抽出し、
前記画像選択部は、前記画像記憶部に記憶されている各動画のうち前記抽出された撮影区間において撮影された動画であって撮影時刻が互いに重複している各動画について当該撮影時刻が互いに重複している各動画のうちから少なくとも１つの動画部分を当該撮影時刻が互いに重複している各動画について抽出された前記特徴量に基づいて選択し、
前記要約画像作成部は、前記選択された動画部分に基づいて前記要約画像を作成する
請求項１記載の画像処理装置。
前記区間抽出部は、前記画像記憶部に記憶されている複数の動画のうちで少なくとも一部の撮影時刻が他の動画と重複している動画を含む区間を前記撮影区間として抽出し、
前記特徴量抽出部は、前記抽出された撮影区間に含まれる各動画の特徴量のみを抽出し、
前記画像選択部は、前記抽出された撮影区間において前記撮影時刻が重複している区間における動画部分を選択する
請求項４記載の画像処理装置。
前記区間抽出部は、前記画像記憶部に記憶されている複数の動画のうちの所定数以上の動画を含む区間を前記撮影区間として抽出する請求項４記載の画像処理装置。
前記画像選択部は、前記画像記憶部に記憶されている複数の動画のうち前記抽出された撮影区間において撮影された動画部分であって撮影時刻が重複していない動画部分については当該動画部分を選択し、
前記要約画像作成部は、前記選択された各動画部分を時系列に並べて前記要約画像を作成する
請求項４記載の画像処理装置。
前記抽出された各特徴量を重み付け加算した値であるダイジェストスコアを各動画の所定区間毎に算出するダイジェストスコア算出部と、
所定の閾値を保持する閾値保持部と、
前記算出されたダイジェストスコアのうちの前記閾値以上のダイジェストスコアに対応するダイジェスト区間を抽出するダイジェスト区間抽出部とをさらに具備し、
前記画像選択部は、前記抽出されたダイジェスト区間において前記算出されたダイジェストスコアを比較して最も高いダイジェストスコアに対応する動画部分を選択する
請求項４記載の画像処理装置。
撮影時刻に関する時刻情報が関連付けられて撮影された複数の画像を入力する画像入力部と、
前記入力された各画像に関連付けられている時刻情報に基づいて同一時間帯に複数の撮像装置により撮影が行われた撮影区間を抽出する区間抽出部と、
前記入力された各画像から特徴量を抽出する特徴量抽出部と、
前記入力された各画像のうち前記抽出された撮影区間において撮影された画像であって撮影時刻が互いに重複している各画像について当該撮影時刻が互いに重複している各画像のうちから少なくとも１つの画像を当該撮影時刻が互いに重複している各画像について抽出された前記特徴量に基づいて選択する画像選択部と、
前記選択された画像に基づいて前記前記入力された複数の画像に関する要約画像を作成する要約画像作成部と
を具備する画像処理装置。
区間抽出部が、撮影時刻に関する時刻情報が関連付けられて撮影された複数の画像について前記時刻情報に基づいて同一時間帯に複数の撮像装置により撮影が行われた撮影区間を抽出する手順と、
特徴量抽出部が、前記複数の画像のうち前記抽出された撮影区間において撮影された各画像から特徴量を抽出する手順と、
画像選択部が、前記複数の画像のうち前記抽出された撮影区間において撮影された画像であって撮影時刻が互いに重複している各画像について当該撮影時刻が互いに重複している各画像のうちから少なくとも１つの画像を当該撮影時刻が互いに重複している各画像について抽出された前記特徴量に基づいて選択する手順と、
要約画像作成部が、前記選択された画像に基づいて前記複数の画像に関する要約画像を作成する手順と
を具備する画像処理方法。
区間抽出部が、撮影時刻に関する時刻情報が関連付けられて撮影された複数の画像について前記時刻情報に基づいて同一時間帯に複数の撮像装置により撮影が行われた撮影区間を抽出する手順と、
特徴量抽出部が、前記複数の画像のうち前記抽出された撮影区間において撮影された各画像から特徴量を抽出する手順と、
画像選択部が、前記複数の画像のうち前記抽出された撮影区間において撮影された画像であって撮影時刻が互いに重複している各画像について当該撮影時刻が互いに重複している各画像のうちから少なくとも１つの画像を当該撮影時刻が互いに重複している各画像について抽出された前記特徴量に基づいて選択する手順と、
要約画像作成部が、前記選択された画像に基づいて前記複数の画像に関する要約画像を作成する手順と
をコンピュータに実行させるプログラム。