JP6583285B2

JP6583285B2 - 情報処理方法、映像処理装置及びプログラム

Info

Publication number: JP6583285B2
Application number: JP2016564725A
Authority: JP
Inventors: 和博嶋内; 広志池田; 伸穂池田; 篤史木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-12-15
Filing date: 2015-10-28
Publication date: 2019-10-02
Anticipated expiration: 2035-10-28
Also published as: US20170337428A1; EP3223516A1; JPWO2016098458A1; EP3223516A4; US10984248B2; WO2016098458A1; CN107005676A

Description

本開示は、情報処理方法、映像処理装置及びプログラムに関する。

近年、ウェアラブルカメラやアクションカメラといった種類のカメラがスポーツ等の分野において広く用いられている。このようなカメラでは、長時間連続して撮影されることが多く、また構図が単調になりやすいことから、撮影された映像そのままでは鑑賞に堪えない場合がある。そのため、撮影された映像の見どころを短くまとめた要約映像を生成するための技術の開発が望まれている。

そのような技術に関して、例えば下記特許文献１、２、３及び４に開示されているように、もとの映像の中から要約映像に採用する区間を選択するための技術が開発されている。詳しくは、下記特許文献１では、もとの映像の中から注目すべき区間を検出するための技術が開示されている。

特開２００８−３１２２１５号公報特開２００７−３３５９８４号公報特開２００６−１４０８４号公報特開平１１−１３６６３７号公報

しかし、上記特許文献１に開示された技術では、もとの映像の中から注目すべき区間を検出することが可能であるに過ぎなかった。そのため、例えば検出された区間がそのまま採用された要約映像が生成されていた。そこで、本開示では、要約映像に採用される候補として抽出された区間の各々について、実際に要約映像に採用する区間を設定することが可能な、新規かつ改良された情報処理方法、映像処理装置及びプログラムを提案する。

本開示によれば、入力された映像の内容を解析することと、音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定すること、を含む情報処理方法が提供される。

また、本開示によれば、入力された映像の内容を解析する映像解析部と、音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定する抽出部と、を備える映像処理装置が提供される。

また、本開示によれば、コンピュータを、入力された映像の内容を解析する映像解析部と、音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定する抽出部と、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、要約映像に採用される候補として抽出された区間の各々について、実際に要約映像に採用する区間を設定することが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態に係る映像処理装置の概要を説明するための図である。本実施形態に係る映像処理装置において実行される映像解析処理の概要を説明するための図である。本実施形態に係る映像処理装置において実行される編集情報生成処理及び要約映像生成処理の概要を説明するための図である。本実施形態に係る映像処理装置の論理的な構成の一例を示すブロック図である。本実施形態に係る単位映像の抽出処理を説明するための図である。本実施形態に係る単位映像の切り替えタイミングの設定処理を説明するための図である。本実施形態に係る映像処理装置の動作モードの一例を説明するための図である。本実施形態に係る単位映像の選択処理を説明するための図である。本実施形態に係る単位映像の選択処理を説明するための図である。本実施形態に係る採用区間の設定処理を説明するための図である。本実施形態に係る採用区間の設定処理を説明するための図である。本実施形態に係る採用区間の設定処理を説明するための図である。本実施形態に係る映像処理装置において実行される要約映像の生成処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じて映像処理装置１００Ａ、１００Ｂ及び１００Ｃのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、映像処理装置１００Ａ、１００Ｂ及び１００Ｃを特に区別する必要が無い場合には、単に映像処理装置１００と称する。

なお、説明は以下の順序で行うものとする。
１．概要
２．基本構成
３．機能詳細
３．１．単位映像の抽出処理
３．２．切り替えタイミングの設定処理
３．３．動作モードの決定処理
３．４．単位映像の選択処理
３．５．採用区間の設定処理
４．動作処理
５．ハードウェア構成例
６．まとめ

＜１．概要＞
まず、図１〜図３を参照して、本実施形態に係る映像処理装置の概要を説明する。

図１は、本実施形態に係る映像処理装置１００の概要を説明するための図である。図１では、映像処理装置１００を用いるユーザの動作、及び映像処理装置１００において行われる処理の推移を示しており、時間は左から右へ流れる。図１に示すように、映像処理装置１００は、ユーザにより撮影された映像１０から要約映像５０を生成する。要約映像５０とは、ユーザにより撮影された映像を要約したダイジェスト版の映像である。映像処理装置１００は、撮影された映像１０から任意の採用基準を用いて採用した区間を、入力された音楽３０に応じて切り替えて連結することで、要約映像５０を生成する。なお、本明細書では、映像は画像（静止画像／動画像）データ及び音声データを含むものとする。以下、映像処理装置１００において実行される要約映像５０の生成処理の概要を説明する。

まず、ユーザにより撮影が行われる期間、映像処理装置１００は、撮影された映像１０を記録する記録処理を行うと共に、映像１０を解析する映像解析処理を行う。例えば、映像処理装置１００は、映像解析処理として、撮影中のユーザ操作の解析を行ったり、笑顔検出、色検出及び動きベクトルの検出等の画像解析を行ったり、撮影中のセンサ情報に基づく被写体の動作の解析を行ったりする。

次いで、映像処理装置１００は、映像解析処理の結果を示す映像解析結果情報２０及び入力された音楽３０に基づいて編集情報生成処理を行う。映像解析結果情報２０とは、ハイライトとして特定或いは抽出すべき注目イベント（区間、期間）に関する情報であって、より具体的には、ジャンプ若しくはターンなどの特定の動作、笑顔、又は歓声が沸いた、イベントの盛り上がったシーンを示す、シーン情報の一例である。例えば、映像処理装置１００は、任意の採用基準を用いて映像解析結果情報２０を評価することで、映像１０から要約映像５０に採用する単位映像を選択する。単位映像とは、一続きの映像であり、ショットとも称される。そして、映像処理装置１００は、採用した単位映像を、音楽３０に応じて切り替えるための編集情報４０を生成する。編集情報４０とは、どの音楽３０のどの区間をＢＧＭ（background music）として、どの単位映像を、どのタイミングで切り替えるか、を規定する情報である。映像処理装置１００は、音楽理論に基づいて音楽３０を解析することで、音楽３０のメロディやリズム、拍又は盛り上がり等に応じたタイミングで単位映像が切り替わるよう、編集情報４０を生成する。

そして、映像処理装置１００は、編集情報４０に基づいて要約映像生成処理を行う。例えば、映像処理装置１００は、編集情報４０により指定された音楽３０をＢＧＭとして、編集情報４０により指定された単位映像を指定されたタイミングで切り替えて連結することで、要約映像５０を生成する。映像処理装置１００は、要約映像５０を再生したり、記録したり、他の機器へ送信したりすることも可能である。

なお、図１に示した映像解析処理は、ユーザによる撮影と並行して行われてもよいし、撮影後に行われてもよい。また、映像解析処理、編集情報生成処理及び要約映像生成処理は、連続的に行われてもよいし、非連続的に行われてもよい。また、映像処理装置１００は、複数の映像及び音楽３０をＢＧＭとする要約映像５０を生成してもよい。

以上、要約映像５０の生成処理の概要を説明した。続いて、図２及び図３を参照して、要約映像５０の生成処理をより詳細に説明する。

図２は、本実施形態に係る映像処理装置１００において実行される映像解析処理の概要を説明するための図である。図２に示した図では、映像１０はユーザの１日の映像であり、映像解析結果情報２０はハイライト２１及びシーンセグメント２２といった、映像の属性を示す情報を含む。映像１０には、海に到着した映像、サーフィンを行っている映像、休憩中の映像、ランチでの映像、ホテルでの映像、及び夕日の映像が含まれている。ハイライト２１とは、映像１０における見どころを示す区間である。見どころとしては、例えば、ジャンプやターンなどの特定の動作や笑顔、歓声が沸いたイベントの盛り上がったシーン、結婚式のケーキカットや指輪交換等の特定のイベントにおける重要なシーンなどが挙げられる。シーンセグメント２２とは、映像１０を所定の条件で分割する区間である。例えば、シーンセグメント２２は、色に基づいて分割された、同一系統の色が連続する区間であってもよい。また、シーンセグメント２２は、カメラワークに基づいて分割された、同一のカメラワークが連続する区間であってもよい。また、シーンセグメント２２は、日時に基づいて分割された、近しい日時で撮影された区間であってもよい。また、シーンセグメント２２は、場所に基づいて分割された、同一又は近しい場所で撮影された区間であってもよい。一例として、図２では、シーンセグメント２２が、色に基づいて分割された例を示している。セグメント化される色は、例えば白系、青系、緑系及び赤系などであってもよい。映像処理装置１００は、映像解析処理により、ハイライト２１及びシーンセグメント２２といった映像の属性を解析する。

図３は、本実施形態に係る映像処理装置１００において実行される編集情報生成処理及び要約映像生成処理の概要を説明するための図である。まず、映像処理装置１００は、シーンセグメント２２が同一である一続きの映像を単位映像として抽出する。そして、映像処理装置１００は、単位映像の中からハイライト２１を優先的に採用しつつ、所定の方針に従って単位映像を採用する。例えば、映像処理装置１００は、視覚的な偏りを低減するために、シーンセグメント２２が分散する単位映像を採用してもよい。また、映像処理装置１００は、ユーザにより指定されたサーフィンやスノーボード等のテーマに沿って単位映像を採用してもよい。具体的には、サーフィンの場合、映像処理装置１００は、食事よりもサーフィン中のターン等のハイライトの割合が多くなるよう、また、青系、海に近い場所、波が高い時間帯のシーンセグメントの割合が多くなるよう、単位映像を採用してもよい。また、映像処理装置１００は、音楽理論に基づいて音楽３０（ＢＧＭ）を解析して、単位映像を切り替えるべきタイミングを設定する。これらの処理を経て、映像処理装置１００は、設定したタイミングで、採用した単位映像を切り替えるための編集情報４０を生成する。そして、映像処理装置１００は、編集情報４０に基づいて要約映像５０を生成する。なお、要約映像５０に含まれる単位映像は、時系列に沿っていてもよいし、沿っていなくてもよい。

例えば、映像処理装置１００は、アクションカメラやウェアラブルカメラ等のカメラとして実現され得る。アクションカメラやウェアラブルカメラ等のカメラは、長時間連続して撮影される場合が多く、また構図が単調になりやすい。このため、このようなカメラで撮影された映像は、見どころをまとめた要約映像に編集されることが望ましい。しかし、このようなカメラは小型であったりＵＩがシンプルであったりする場合が多いので、映像を確認しながら手動で編集することが困難な場合がある。そのため、長時間連続して撮影された、構図が単調な映像であっても、適切な要約映像が生成されることが望ましい。この点、本実施形態に係る映像処理装置１００は、そのような映像であっても、属性が分散され、ユーザにより指定されたテーマに沿った、ハイライトを含むショットがＢＧＭに応じて切り替わる要約映像を生成することが可能である。なお、映像処理装置１００は、一般的なビデオカメラ等として実現されてもよいし、カメラとは別箇のＰＣ（Personal Computer）又はネットワーク上のサーバ等の情報処理装置として実現されてもよい。

以上、本実施形態に係る映像処理装置１００の概要を説明した。続いて、図４を参照して、本実施形態に係る映像処理装置１００の基本的な構成例を説明する。

＜２．基本構成＞
図４は、本実施形態に係る映像処理装置１００の論理的な構成の一例を示すブロック図である。図４に示すように、映像処理装置１００は、入力部１１０、記憶部１２０、出力部１３０及び制御部１４０を含む。

（１）入力部１１０
入力部１１０は、外部からの各種情報の入力を受け付ける機能を有する。図４に示すように、入力部１１０は、センサ部１１１、操作部１１２、映像取得部１１３及び音楽取得部１１４を含む。

（１．１）センサ部１１１
センサ部１１１は、被写体の動作を検出する機能を有する。例えば、センサ部１１１は、ジャイロセンサ、加速度センサ及び重力センサを含み得る。被写体とは、撮影対象であり、撮影者（ユーザ）も含むものとする。センサ部１１１は、ＧＰＳ（Global Positioning System）、赤外線センサ、近接センサ、タッチセンサ等の任意のセンサを含んでいてもよい。センサ部１１１は、センシング結果を示すセンサ情報を制御部１４０へ出力する。なお、センサ部１１１は、映像処理装置１００と一体的に形成されていなくてもよい。例えば、センサ部１１１は、被写体に装着されたセンサから有線又は無線通信を介してセンサ情報を取得してもよい。

（１．２）操作部１１２
操作部１１２は、ユーザ操作を受け付ける機能を有する。例えば、操作部１１２は、ボタン及びタッチパッド等により実現される。操作部１１２は、撮影中のズーム操作や撮影モードの設定操作などの操作を受け付け得る。撮影モードとしては、例えば動画を撮影する通常モード、及び動画及び静止画を同時に撮影する同時撮影モードなどが考えられる。他にも、操作部１１２は、撮影中又は撮影後に、要約映像に含めるべき区間を指定する編集指示を受け付け得る。操作部１１２は、ユーザ操作の内容を示す操作情報を制御部１４０へ出力する。

（１．３）映像取得部１１３
映像取得部１１３は、映像を取得する機能を有する。例えば、映像取得部１１３は、撮像装置として実現され、デジタル信号とされた撮影画像（動画像／静止画像）のデータを出力する。映像取得部１１３は、周囲の音を収音し、アンプ及びＡＤＣ（ＡｎａｌｏｇＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）を介してデジタル信号に変換した音データを取得するマイクをさらに含んでいてもよい。その場合、映像取得部１１３は、周囲の音が付随する映像データを出力する。

（１．４）音楽取得部１１４
音楽取得部１１４は、要約映像のＢＧＭとなる音楽データを取得する機能を有する。例えば、音楽取得部１１４は、有線又は無線のインタフェースとして実現され、ＰＣ又はサーバ等の他の装置から音楽データを取得する。有線のインタフェースとしては、例えばＵＳＢ（Universal Serial Bus）等の規格に準拠したコネクタが挙げられる。無線のインタフェースとしては、例えばＢｌｕｅｔｏｏｔｈ（登録商標）又はＷｉ−Ｆｉ（登録商標）等の通信規格に準拠した通信装置が挙げられる。音楽取得部１１４は、取得した音楽データを制御部１４０へ出力する。

（２）記憶部１２０
記憶部１２０は、各種情報を記憶する機能を有する。例えば、記憶部１２０は、入力部１１０から出力された情報、及び制御部１４０により生成される情報を記憶する。

（３）出力部１３０
出力部１３０は、各種情報を出力する機能を有する。例えば、出力部１３０は、後述する要約映像生成部１４６により生成された要約映像を再生する機能を有していてもよい。その場合、出力部１３０は、表示部及びスピーカを含み得る。他にも、出力部１３０は、後述する編集部１４４により生成された編集情報を出力する機能を有していてもよい。その場合、出力部１３０は、有線又は無線のインタフェースを含み得る。

（４）制御部１４０
制御部１４０は、演算処理装置および制御装置として機能し、各種プログラムに従って映像処理装置１００内の動作全般を制御する。図４に示すように、制御部１４０は、音楽解析部１４１、映像解析部１４２、抽出部１４３、編集部１４４、動作モード制御部１４５及び要約映像生成部１４６を含む。

（４．１）音楽解析部１４１
音楽解析部１４１は、入力された音楽の内容を解析する機能を有する。詳しくは、音楽解析部１４１は、音楽取得部１１４により取得された音楽データを対象として、音楽理論に基づく解析を行う。

音楽解析部１４１は、音楽の構造を解析してもよい。例えば、音楽解析部１４１は、音楽の構造を解析することで、所定の条件を満たす部分を特定する。例えば、音楽解析部１４１は、音楽理論に基づいて、音楽のイントロ（Intro）部分、メロディ（Verse）部分、コーラス（サビとも称される）（Chorus）部分、間奏（Interlude）部分、ソロ（Solo）部分、エンディング（Outro）部分等の構成要素を特定し得る。メロディ部分には、Ａメロディ（Melody A）やＢメロディ（Melody B）に区分されてもよい。さらに、音楽解析部１４１は、特定した音楽の各構成要素におけるコード進行を検出してもよく、検出したコード信号に基づいて、コーラス部分の中でも特に重要な部分（区間）を特定してもよい。他にも、音楽解析部１４１は、コーラス部分の中でも、ボーカルの歌い始めの区間、最もボーカルの音程が高い区間等を、特に重要な部分として特定してもよい。

また、音楽解析部１４１は、音楽のリズムを解析してもよい。例えば、音楽解析部１４１は、音楽の拍（ビート）を解析したり、小節を解析したりする。例えば４拍子であれば、ひとつの小節に等間隔で４つの拍が含まれ、そのうち始めの拍が小節の始めと一致する。小節の始めと一致する拍を、以下では小節頭の拍とも称する。

音楽解析部１４１は、解析結果を示す音楽解析結果情報を、編集部１４４へ出力する。なお、音楽解析結果情報（音楽の区間の情報）は、例えば音楽データにおける各構成要素の位置、特に重要な部分の位置、各拍の位置、及び各小節の位置を示す情報を含む。

（４．２）映像解析部１４２
映像解析部１４２は、入力された映像の内容を解析する機能を有する。詳しくは、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として、内容の解析を行う。そして、映像解析部１４２は、映像の内容の解析結果を示す映像解析結果情報を抽出部１４３へ出力する。

・ハイライトの検出
例えば、映像解析部１４２は、入力部１１０により入力された情報に基づいてハイライトを検出し、検出したハイライトを示す情報を映像解析結果情報に含めて出力する。一例として、映像解析部１４２が、被写体動作、ユーザ操作、並びに顔及び笑顔に関するハイライトを検出する例を説明する。

例えば、映像解析部１４２は、センサ部１１１により取得されたセンサ情報に基づいて、被写体の所定の動作を検出する。例えば、映像解析部１４２は、センサ情報に基づいて、被写体の跳躍（ジャンプ）、進行方向の転換（ターン）、走行、加速又は減速等の被写体の動作を検出し得る。また、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として画像認識処理を行うことで、被写体の所定の動作を検出してもよい。被写体動作の検出処理に関して、映像解析結果情報は、検出された被写体の動作を示す情報、及び映像データにおいて当該動作が検出される区間を示す情報を含み得る。

例えば、映像解析部１４２は、操作部１１２により取得された操作情報に基づいて、ユーザ操作を検出する。例えば、映像解析部１４２は、撮影中に取得された操作情報に基づいて、ズーム操作や撮影モードの設定操作などの所定の操作などを検出する。ユーザ操作の検出処理に関して、映像解析結果情報は、検出されたユーザ操作を示す情報、及び映像データにおいて当該ユーザ操作が検出される区間を示す情報を含み得る。他にも、映像解析部１４２は、撮影中又は撮影後に取得された操作情報に基づいて、編集指示を検出する。この場合、映像解析結果情報は、ユーザにより要約映像に含めるべき区間として指定された区間を示す情報を含み得る。

例えば、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として画像認識処理を行うことで、被写体の顔及び笑顔を検出する。顔及び笑顔の検出処理に関して、映像解析結果情報は、映像データにおいて顔及び笑顔が検出される区間、領域、並びに顔及び笑顔の数を示す情報を含み得る。

例えば、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として音声認識処理を行うことで、歓声が沸いた区間を検出する。歓声の検出処理に関して、映像解析結果情報は、映像データにおいて歓声が検出される区間、並びに音量を示す情報を含み得る。

例えば、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として画像認識処理を行うことで、特定のイベントにおける重要シーンを検出する。重要シーンとしては、結婚式におけるケーキカットや指輪交換等が挙げられる。重要シーンの検出処理に関して、映像解析結果情報は、映像データにおいて重要シーンが検出される区間、並びに重要度を示す情報を含み得る。

・シーンセグメントのための情報の検出
例えば、映像解析部１４２は、入力部１１０により入力された情報に基づいてシーンセグメントのための情報を検出し、検出したシーンセグメントのための情報を映像解析結果情報に含めて出力する。一例として、映像解析部１４２が、色、カメラワーク、日時及び場所に関するシーンセグメントのための情報を検出する例を説明する。

例えば、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として画像認識処理を行うことで、映像の色を検出し得る。詳しくは、映像解析部１４２は、映像のＹＵＶ又はＲＧＢ等を解析して、カラーヒストグラムを各フレーム又は複数のフレームごとに検出する。そして、映像解析部１４２は、各フレームにおいて支配的な色を当該フレームの色として検出する。なお、検出された色を識別するための識別情報を、色ＩＤとも称する。色の検出処理に関して、映像解析結果情報は、各区間の色ＩＤを示す情報を含み得る。

例えば、映像解析部１４２は、映像取得部１１３により取得された映像データを対象として画像認識処理を行うことで、カメラワークを検出し得る。例えば、映像解析部１４２は、各フレーム又は複数のフレームごとに動きベクトルを検出することで、静止、上下又は左右といったカメラワークを検出する。なお、検出されたカメラワークを識別するための識別情報を、カメラワークＩＤとも称する。カメラワークの検出処理に関して、映像解析結果情報は、各区間のカメラワークＩＤを示す情報を含み得る。

例えば、映像解析部１４２は、センサ部１１１に含まれるＧＰＳ又は映像取得部１１３に含まれるカメラ等に内蔵された時計により取得された撮影日時を検出し得る。なお、検出された撮影日時を識別するための識別情報を、撮影日時ＩＤとも称する。同一又は近しい日時に撮影された区間には、同一の撮影日時ＩＤが付されるものとする。撮影日時の検出処理に関して、映像解析結果情報は、撮影日時セグメントの各々の撮影日時ＩＤ及び区間を示す情報を含み得る。

例えば、映像解析部１４２は、センサ部１１１含まれるＧＰＳにより取得された位置情報に基づいて、撮影された場所を検出し得る。なお、検出された撮影場所を識別するための識別情報を、撮影場所ＩＤとも称する。同一又は近しい場所に撮影された区間には、同一の撮影場所ＩＤが付されるものとする。撮影場所の検出処理に関して、映像解析結果情報は、各区間の撮影場所ＩＤを示す情報を含み得る。

（４．３）抽出部１４３
抽出部１４３は、入力された映像から複数の単位映像を抽出する機能を有する。詳しくは、抽出部１４３は、映像解析部１４２による解析結果に基づいて、映像取得部１１３により取得された映像データから複数の単位映像を抽出する。詳しくは、抽出部１４３は、解析結果情報が示す映像の属性が同一である一続きの映像を、単位映像として抽出する。

例えば、抽出部１４３は、シーンセグメントが同一である一続きの映像を単位映像として抽出してもよい。また、抽出部１４３は、ハイライトが検出された映像を単位映像として抽出してもよい。詳しくは、抽出部１４３は、被写体のジャンプ等の所定の動作が検出された区間を、ひとつの単位映像として抽出してもよい。また、抽出部１４３は、ズーム操作や撮影モードの設定操作等の所定の操作が検出された区間、又はユーザにより要約映像に含めるべき区間として指定された区間を、それぞれひとつの単位映像として抽出してもよい。その際、抽出部１４３は、ズーム操作であればズーム後の区間を単位映像として抽出してもよく、撮影モードの設定操作であれば同時撮影モードで撮影された区間を単位映像として抽出してもよい。また、抽出部１４３は、被写体の顔又は笑顔が検出された区間、即ち被写体の状態が笑顔である又はカメラに顔を向けている等の所定の状態であると検出された区間、又はその前後の区間を、ひとつの単位映像として抽出してもよい。また、抽出部１４３は、歓声が沸いている区間を、ひとつの単位映像として抽出してもよい。また、抽出部１４３は、特定のイベントにおける重要シーンが撮影された区間を、ひとつの単位映像として抽出してもよい。抽出部１４３は、これらの抽出基準を組み合わせて用いてもよい。

抽出部１４３は、映像解析部１４２による解析結果に基づいて、抽出した単位映像に注目度を設定してもよい。例えば、抽出部１４３は、ハイライトに相当する区間の単位映像に高い注目度を設定する。詳しくは、抽出部１４３は、映像解析部１４２により、単位映像の撮影区間における被写体の動作が所定の動作であると解析された場合、被写体の状態が所定の状態であると解析された場合又は所定の操作があったと解析された場合に、当該単位映像に高い注目度を設定する。他にも、抽出部１４３は、映像解析部１４２により、単位映像の撮影区間において歓声が沸いたと解析された場合、重要シーンであったと解析された場合に、当該単位映像に高い注目度を設定する。これにより、被写体のジャンプ等の所定の動作が検出された区間に該当する単位映像に、高い注目度が設定される。また、被写体の状態が笑顔である又はカメラに顔を向けている等の所定の状態であると検出された区間に該当する単位映像に、高い注目度が設定される。また、ズーム操作や撮影モードの設定操作等の所定の操作が検出された区間に該当する単位映像に、高い注目度が設定される。また、歓声が沸いた区間に該当する単位映像に高い注目度が設定される。また、結婚式のケーキカットや指輪交換等の特定のイベントにおける重要なシーンが検出された区間に該当する単位映像に、高い注目度が設定される。他にも、抽出部１４３は、ユーザにより要約映像に含めるべき区間として指定された区間に該当する単位映像に、高い注目度を設定してもよい。そして、抽出部１４３は、上述した以外の他の場合に低い注目度を設定する。以下では、注目度が高い単位映像を、ハイライトショットとも称する。また、注目度が低い単位映像を、サブショットとも称する。また、抽出されたハイライトショットの種類を識別するための識別情報を、ハイライトＩＤとも称する。例えば、ハイライトＩＤは、ジャンプ、ズーム操作、歓声、重要シーン、ユーザにより指定された等のハイライトの種類に応じて異なるＩＤが設定され得る。

（４．４）編集部１４４
編集部１４４は、抽出部１４３により抽出された単位映像を、入力された音楽に応じて切り替えるための編集情報を生成する機能を有する。例えば、編集部１４４は、入力されたどの音楽のどの区間をＢＧＭとするかを設定する。そして、編集部１４４は、ＢＧＭにする音楽を音楽解析部１４１による音楽解析結果により区切り、各区間に抽出部１４３により抽出された単位映像を割り当てる。これにより、要約映像において、音楽が区切られたタイミングで単位映像が切り替わることとなる。単位映像の割り当ての際、編集部１４４は、抽出部１４３により抽出された単位映像から全部又は一部を要約映像に採用する単位映像として決定し、採用した単位映像を各区間に割り当て得る。なお、編集部１４４は、原則撮影時刻の順に単位映像を割り当てるものとする。もちろん、編集部１４４は、撮影時刻に依存せずに単位映像を割り当ててもよい。このように、編集部１４４は、入力されたどの音楽のどの区間をＢＧＭとして、どの単位映像をどのタイミングで切り替えるかを設定することで、編集情報を生成する。編集部１４４による処理の詳細については、後に詳しく説明する。

（４．５）動作モード制御部１４５
動作モード制御部１４５は、抽出部１４３及び編集部１４４における動作モードを制御する機能を有する。動作モード制御部１４５は、抽出部１４３による単位映像の抽出結果、及び編集部１４４による切り替えタイミングの設定結果に応じて、動作モードを制御する。動作モード制御部１４５による処理の詳細については、後に詳しく説明する。

（４．６）要約映像生成部１４６
要約映像生成部１４６は、音楽と編集情報に基づいて切り替わる単位映像とから成る要約映像を生成する機能を有する。例えば、要約映像生成部１４６は、編集情報により指定された音楽をＢＧＭとして、編集情報により指定された単位映像を指定されたタイミングで切り替えて連結することで、要約映像を生成する。

＜３．機能詳細＞
以上、本実施形態に係る映像処理装置１００の基本構成を説明した。続いて、映像処理装置１００が有する機能を詳細に説明する。

［３．１．単位映像の抽出処理］
抽出部１４３は、映像解析部１４２による解析結果に基づいて、映像取得部１１３により取得された映像データから複数の単位映像を抽出する。具体的には、抽出部１４３は、映像解析部１４２により解析された映像の属性に応じて単位映像を抽出する。例えば、抽出部１４３は、シーンセグメントのための情報及びハイライトを示す情報に基づいて、映像データからハイライトショット及びサブショットを抽出する。以下、図５を参照して、映像解析結果に基づく単位映像の抽出処理を具体的に説明する。

図５は、本実施形態に係る単位映像の抽出処理を説明するための図である。図５では、抽出部１４３がハイライトショット２４０Ａ〜２４０Ｅ及びサブショット２５０Ａ〜２５０Ｇを抽出する処理を概略的に示している。図５に示すように、抽出部１４３は、まずシーンセグメントのための情報に基づいて、シーンセグメント２１０を生成する。例えば、抽出部１４３は、色ＩＤが同一の区間をセグメント化することで、シーンセグメント２１０を生成する。抽出部１４３は、シーンセグメントのための情報を複数用いてもよく、例えば、色ＩＤ、カメラワークＩＤ、撮影場所ＩＤ及び撮影日時ＩＤが同一の区間をセグメント化することで、シーンセグメント２１０を生成してもよい。次いで、抽出部１４３は、シーンセグメント２１０とハイライト２２０との紐付けを行い、入力された映像２３０からハイライトショット２４０Ａ〜２４０Ｅを抽出する。そして、抽出部１４３は、入力された映像２３０のシーンセグメント２１０により区分される区間をサブショットとして抽出する。ただし、抽出部１４３は、ハイライトショット２４０と重なる、時間が短い（例えば、後述する最長の割り当て区間の長さより短い）、極端に明るい若しくは暗い、又はカメラワークが安定しない区間を除外することで、サブショット２５０を抽出してもよい。以下では、映像結果情報に基づいて抽出部１４３により抽出された単位映像、即ちハイライトショット及びサブショットの数を、抽出数とも称する。

［３．２．切り替えタイミングの設定処理］
編集部１４４は、音楽解析部１４１から出力された音楽解析結果情報に基づいて、入力された音楽に応じて単位映像の切り替えタイミングを設定する。例えば、編集部１４４は、抽出部１４３により抽出された単位映像を、音楽解析部１４１により解析された構成要素に応じて、小節に応じて、又は拍に応じて切り替えるための編集情報を生成してもよい。具体的には、編集部１４４は、入力された音楽を、構成要素が切り替わるタイミング、小節が切り替わるタイミング、又は拍に応じたタイミングで区切り、その区切った位置に単位映像の切り替えタイミングを設定する。

例えば、拍に応じたタイミングとして、編集部１４４は、単位映像を１拍ごとに切り替えるための編集情報を生成してもよい。その場合、単位映像がテンポ良くスピード感を持って切り替わることとなり、鑑賞者の感情を盛り上げることが可能となる。ただし、編集部１４４は、音楽の拍の速さが閾値を超える場合に、単位映像を複数拍ごとに切り替えるための編集情報を生成してもよい。例えば、２拍ごとに単位映像が切り替わってもよい。これにより、ＢＧＭがテンポの速い音楽である場合に、単位映像があまりに早く切り替わってしまうことが防止されるので、鑑賞者にせわしない印象を与えてしまうことを回避することができる。

例えば、編集部１４４は、音楽解析部１４１により解析された音楽の構造の種類ごとに、拍に応じた単位映像の切り替えの実施回数を設定してもよい。具体的には、編集部１４４は、イントロ部分及びコーラス部分といった音楽の構成要素ごとに、拍に応じた単位映像の切り替えの実施回数を設定してもよい。さらに、編集部１４４は、前記音楽解析部により特定された所定の条件を満たす部分で、拍に応じた単位映像の切り替えを実施してもよい。具体的には、編集部１４４は、コーラス部分の中でも、ボーカルの歌い始めの部分、最もボーカルの音程が高い部分等の特に重要な部分で、拍に応じた単位映像の切り替えを実施してもよい。これにより、ＢＧＭの盛り上がりに合わせて拍に応じた単位映像の切り替えを実施することが可能となり、より効果的に鑑賞者の感情を盛り上げることが可能となる。

例えば、編集部１４４は、音楽解析部１４１により解析された音楽の小節の単位で、拍に応じた単位映像の切り替えの実施有無を選択してもよい。この場合、小節の単位で拍に応じた単位映像の切り替えが行われることとなる。人は意識的又は無意識的にしろ、小節を意識しながら音楽を聴き、展開を予測するものであると考えられる。そのため、小節の単位で拍に応じた単位映像の切り替えは、鑑賞者に受け入れられやすいので、容易に鑑賞者の感情を盛り上げることが可能となる。さらに、小節の単位での拍に応じた単位映像の切り替えは、小節の単位での単位映像の切り替えと整合性が良い。また、編集部１４４は、拍に応じた単位映像の切り替えを実施する小節同士を離間させてもよい。これにより、拍に応じた単位映像の切り替えが連続する複数の小節で行われることがなくなり、過度の切り替えが防止される。

なお、設定された切り替えタイミングにより音楽が区切られる区間を、以下では割り当て区間とも称する。つまり、切り替えタイミングを設定することは、各単位映像をどのくらいの長さ要約映像に割り当てるか、という割り当て区間を設定することに相当する。割り当て区間のうち最長の区間を、以下では最長の割り当て区間とも称する。

上述した、単位映像の切り替えタイミングの設定は、例えば予め設定された確率テーブルに基づいて設定されてもよい。その際、編集部１４４は、音楽の構成要素の切り替わりのタイミングでは必ず単位映像を切り替えること、最長の割り当て区間の長さの設定等のルールに従ってもよい。

なお、ひとつの小節内で拍に応じて切り替わる前記単位映像は、互いに類似することが望ましい。これにより、鑑賞者に煩雑な印象を与えてしまうことを回避することが可能となる。互いに類似するとは、例えば被写体の動作、撮影日時、撮影場所、色又はカメラワークの少なくともいずれかが近いことを指す。例えば、色が同一でカメラワークが右から左へ移動する単位映像と左から右へ単位映像とは、互いに類似すると言える。また、被写体がジャンプしている単位映像同士は、互いに類似すると言える。また、互いに類似するとは、例えば単位映像に特定の被写体が含まれることを指していてもよい。例えば、同一人物や同一チームの人物が含まれる単位映像は類似すると言える。ここで、ひとつの小節内で拍に応じて切り替わる単位映像の少なくともひとつは、ひとつの小節内で２回以上採用されてもよい。例えば４拍子であれば、単位映像Ａ、単位映像Ｂ、単位映像Ａ、単位映像Ｂの順に採用されてもよいし、単位映像Ａ、単位映像Ａ、単位映像Ａ、単位映像Ａの順に採用されてもよい。これにより、鑑賞者に煩雑な印象を与えてしまうことを回避することがより容易になる。もちろん、ひとつの小節内で拍に応じて切り替わる単位映像は、それぞれ異なっていてもよい。例えば４拍子であれば、単位映像Ａ、単位映像Ｂ、単位映像Ｃ、単位映像Ｄの順に採用されてもよい。

以下、図６を参照して、音楽解析結果に基づく単位映像の切り替えタイミングの設定処理を具体的に説明する。

図６は、本実施形態に係る単位映像の切り替えタイミングの設定処理を説明するための図である。図６では、音楽のうちＢＧＭとして使用される区間３１０の構成要素３２０、及び設定される切り替えタイミング３３０を示している。切り替えタイミング３３０の区分け線が切り替えタイミングを示しており、区分け線により区分される区間が、割り当て区間を示している。図６に示すように、構成要素３２０としてメロディ部分、コーラス部分及びエンディング部分が含まれている。また、図６に示した音楽は、ひとつの小節３４３に１つの小節頭の拍３４２及び３つの拍３４１が含まれる４拍子の音楽である。図６に示した例では、編集部１４４は、構成要素３２０がメロディからコーラスに切り替わるタイミング、及びコーラスからエンディングに切り替わるタイミングで、単位映像の切り替えタイミングを設定している。また、編集部１４４は、１小節単位の割り当て区間３５１Ａ〜３５１Ｄを設定し、２小節単位の割り当て区間３５２を設定し、３小節単位の割り当て区間３５３を設定し、１拍単位の割り当て区間３５４を設定している。そのため、区間３５４において、１拍ごとに単位映像が切り替えられる。この場合、最長の割り当て区間３６０は３小節分である。

下記の表１に、図６に示した例における、ＢＧＭ全体において及び各構成要素において採用される単位映像の個数を、切り替えタイミングの種類（割り当て区間の長さ）ごとに示した。

なお、１拍ごとに単位映像が切り替えられる場合、ひとつの単位映像が複数回採用される場合も考えられるので、選択される単位映像の個数は最大４個となる。表１を参照すると、図６に示した例では、全体で最大１０個の単位映像が要約映像に採用される。また、図６に示した例では、最長の割り当て区間は３小節分である。

このように、要約映像に採用される単位映像の数は、編集部１４４が音楽解析結果情報に基づいて設定した切り替えタイミングにより定まる割り当て区間の数、即ち音楽が区切られた数により定まる。以下では、音楽解析結果情報に基づいて編集部１４４により音楽が区切られた数を、採用数とも称する。例えば、図６に示した例では、採用数は最大１０個である。より詳しくは、拍に応じた切り替えの内容が、単位映像Ａ、単位映像Ｂ、単位映像Ｃ、単位映像Ｄであれば、採用数は１０個となる。また、拍に応じた切り替えの内容が、単位映像Ａ、単位映像Ｂ、単位映像Ａ、単位映像Ｂであれば、採用数は８個となる

編集部１４４は、切り替えタイミングの設定処理において設定した切り替えタイミングで、抽出部１４３により抽出された単位映像を切り替えてもよい。他にも、編集部１４４は、切り替えタイミングの設定処理において設定した切り替えタイミングを変更してもよい。例えば、編集部１４４は、切り替えタイミングの設定処理において設定した、割り当て区間の総数（採用数に相当）及び割り当て区間の長さごとの数を保持しつつ、割り当て区間の順序を入れ換えてもよい。そのような例については、後述する採用区間の設定処理において説明する。

［３．３．動作モードの決定処理］
上述した、切り替えタイミングの設定処理と単位映像の抽出処理との順番は任意である。

切り替えタイミングの設定処理が先である場合、単位映像の抽出処理には、切り替えタイミングの設定処理に係る制限が課されることとなる。例えば、抽出部１４３は、少なくとも採用数以上の数の単位映像を抽出する、という制限が課され得る。本制限により、要約映像内では、単位映像が重複することなく切り替わることとなる。また、抽出部１４３は、抽出した各単位映像がどのタイミングで用いられてもよいように、最長の割り当て区間（図６に示した例では３小節分）以上の長さの単位映像を抽出する、という制限が課され得る。本制限によれば、抽出したどの単位映像であっても、最長の割り当て区間に割り当て可能となる。

単位映像の抽出処理が先である場合、切り替えタイミングの設定処理には、単位映像の抽出処理に係る制限が課されることとなる。例えば、編集部１４４は、抽出部１４３により抽出された単位映像の数より少ない数の単位映像を割り当てるよう、切り替えタイミングを設定する、という制限が課される。本制限により、要約映像内では、単位映像が重複することなく切り替わることとなる。また、編集部１４４は、抽出部１４３により抽出された各単位映像の長さに応じた長さの割り当て区間となるよう、切り替えタイミングを設定する、という制限が課され得る。本制限によれば、抽出部１４３により抽出された各単位映像に、適した割り当て区間を割り当てることができる。

動作モード制御部１４５は、このような制限を満たすために、抽出部１４３及び編集部１４４の動作モードを変更し得る。以下では、切り替えタイミングの設定処理が先に行われる場合について説明する。

まず、動作モード制御部１４５は、動作モードを通常処理モード（第１の動作モード）として、抽出部１４３及び編集部１４４を動作させる。通常処理モードにおいては、編集部１４４は、上述した通り音楽解析結果情報を利用して単位映像の切り替えタイミングを設定する。また、抽出部１４３は、上述した通り映像解析結果情報を利用して単位映像を抽出する。

動作モード制御部１４５は、通常処理モードにおける、抽出数と採用数との大小関係に応じて、抽出部１４３による再度の抽出処理又は編集部１４４による再度の採用処理の少なくともいずれかを、動作モードを変更して実施させる否かを判定する。ここでの抽出処理とは、上述した単位映像の抽出処理を指す。また、ここでの採用処理とは、上述した切り替えタイミングの設定処理を指す。抽出数と採用数との大小関係に関しては、上述したように抽出数が採用数以上であるという制限がある。動作モード制御部１４５は、本制限が満たされていない場合に、動作モードを変更することで本制限を満たすことを可能にする。

例えば、動作モード制御部１４５は、通常処理モードにおける採用数と抽出数とが等しい又は抽出数の方が多い場合に、動作モードの変更を行わないと判定する。つまり、動作モード制御部１４５は、抽出数が採用数以上である場合に、動作モードの変更を行わないと判定する。動作モードを変更せずとも、上述した抽出数が採用数以上である、制限が満たされているためである。

一方で、動作モード制御部１４５は、通常処理モードにおける抽出数が採用数よりも少ない場合に、動作モードを他の動作モードに変更し得る。例えば、動作モード制御部１４５は、動作モードを分割処理モード（第２の動作モード）、又はリトライ処理モード（第５の動作モード）に変更し得る。

分割処理モードにおいては、抽出部１４３は、通常処理モードにおいて抽出された単位映像のうち少なくともいずれかを２以上の単位映像に分割する。例えば、抽出部１４３は、通常処理モードにおいて抽出された単位映像のうち、長さが閾値を超える単位映像を分割の対象としてもよい。また、抽出部１４３は、分割後の単位映像が、最長の割り当て区間以上となるよう、分割数を決定してもよい。分割処理モードにより、抽出数が増加することになるので、抽出数が採用数以上である、という制限が満たされ得る。

リトライ処理モードにおいては、編集部１４４は、所定の間隔で音楽を区切ることで、切り替えタイミングを設定する。また、抽出部１４３は、映像を所定の間隔で区切った単位映像を抽出する。例えば、編集部１４４は、入力された音楽を等間隔で、又は予め設定された間隔で区切り、その区切りのタイミングを切り替えタイミングとして設定する。また、抽出部１４３は、入力された映像を等間隔で、又は予め設定された間隔で区切ることで、その区切った映像を単位映像として抽出する。つまり、抽出部１４３は、ハイライトを考慮せずに単位映像を抽出する。リトライ処理モードは、区切る間隔を調節することで採用数及び抽出数を任意に調節可能であるので、抽出数が採用数以上である、という制限が満たされ得る。

以上説明した各動作モードを、図７を参照しながら比較説明する。図７は、本実施形態に係る映像処理装置１００の動作モードの一例を説明するための図である。図７に示すように、通常処理モードでは、映像解析結果情報及び音楽解析結果情報が利用され、映像品質が「高」の要約映像が生成されることとなる。分割処理モードでは、映像解析結果情報が修正して利用される。具体的には、図７に示すように、通常処理モードにおいて抽出された単位映像４１０が単位映像４１１及び４１２に分割される。同様に、単位映像４２０が単位映像４２１、４２２及び４２３に分割され、単位映像４３０が単位映像４３１、４３２及び４３３に分割される。分割処理モードでは、本来ひとつであった単位映像が複数に分割されてそれぞれが要約映像に採用され得る。つまり、似た単位映像が要約映像に採用され得るので、要約映像の映像品質は「中」となる。リトライ処理モードでは、映像解析結果情報及び音楽解析結果情報が無視される。具体的には、図７に示すように、切り替えタイミングは等間隔となり、単位映像は入力された映像を等間隔で区切ったものとなる。そのため、リトライ処理モードにおいて生成される要約映像は単調なものとなるので、映像品質は「低」となる。

動作モード制御部１４５は、通常処理モードにおける抽出数が採用数よりも少ない場合に、動作モードを分割処理モード及びリトライ処理モード以外の他の動作モードに変更してもよい。例えば、動作モード制御部１４５は、動作モードを最長割り当て区間短縮処理モード（第３の動作モード）、又はサブショット条件緩和処理モード（第４の動作モード）に変更し得る。

最長割り当て区間短縮処理モードにおいては、編集部１４４は、通常処理モードと比較して、最長の割り当て区間を短くする。これにより、抽出部１４３は、通常処理モードよりも短い最長の割り当て区間以上の長さで単位映像を抽出することとなる。図６に示した例では、抽出部１４３は、通常処理モードにおいては３小節分以上の長さで単位映像を抽出する。一方、抽出部１４３は、最長割り当て区間短縮処理モードにおいては、例えば２小節分以上の長さで単位映像を抽出する。これにより、抽出部１４３は、通常処理モードにおいては２小節分しかなく、短いためサブショットとして抽出されなかった区間の映像を、サブショットして抽出することが可能となる。このように、最長割り当て区間短縮処理モードでは、抽出数が増加することになるので、抽出数が採用数以上である、という制限が満たされ得る。

サブショット条件緩和処理モードにおいては、抽出部１４３は、通常処理モードと比較して単位映像を抽出するための映像解析部１４２による解析結果に関する条件を緩和する。例えば、抽出部１４３は、時間が短い区間であっても単位映像として抽出したり、極端に明るい若しくは暗い区間であっても単位映像として抽出したり、カメラワークが安定しない区間であっても単位映像として抽出する。このように、サブショット条件緩和処理モードでは、抽出数が増加することになるので、抽出数が採用数以上である、という制限が満たされ得る。

上記挙げた動作モードの順序は任意である。例えば、動作モード制御部１４５は、通常処理モードの後に、分割処理モード、最長割り当て区間短縮処理モード、サブショット条件緩和処理モード、リトライ処理モードの順に動作モードを変更してもよい。また、動作モード制御部１４５は、上述した動作モードを任意に組み合わせて用いてもよい。さらに、動作モード制御部１４５は、上述した動作モードの全部又は一部を採用した処理を並列的に行わせ、最も品質が高い結果を得られる動作モードを選択してもよい。

［３．４．単位映像の選択処理］
（概要）
編集部１４４は、抽出部１４３により抽出された単位映像の中から、要約映像に採用する単位映像を選択する。例えば、編集部１４４は、ハイライトを優先して、採用数分の単位映像を選択する。以下、図８及び図９を参照して、単位映像の選択処理を説明する。

図８は、本実施形態に係る単位映像の選択処理を説明するための図である。図８に示すように、まず、編集部１４４は、要約映像に採用する単位映像の候補として、ひとつ以上のサブショット５１０を選択する。選択ショット５２０は、要約映像に採用する単位映像の候補として選択された単位映像である。編集部１４４は、例えばシーンセグメントが分散し、及び／又はユーザにより指定されたテーマに沿うようにサブショット５１０を選択し得る。例えば、編集部１４４は、後に説明する評価関数による評価値が高い順にサブショット５１０を選択する。図中の［１］［２］［３］［４］［５］［６］［７］は、評価関数を用いた選択順序を示している。また、採用数は７であるものとする。図８に示すように、編集部１４４は、選択ショット５２０においては、選択した単位映像を撮影された時刻に沿って並べる。

図９は、本実施形態に係る単位映像の選択処理を説明するための図である。図９に示すように、編集部１４４は、要約映像に採用する単位映像の候補として、ハイライトショット５３０を選択する。編集部１４４は、例えば選択ショットにおいて隣り合う単位映像が同一のハイライトとならないよう、ハイライトショット５３０を選択し得る。例えば、編集部１４４は、後に説明する評価関数による評価値が高い順にハイライトショット５３０を選択する。また、編集部１４４は、ハイライトショット５３０を選択する代わりに、既に選択されたサブショットの中から優先度の低いサブショット５４０を除去する。優先度が低いサブショット５４０としては、例えば選択順序が遅かったサブショットが挙げられる。図中の［１］［２］は、評価関数を用いた選択順序及び除去順序を示している。

（サブショットの評価関数）
以下では、サブショットの選択のために用いられる評価関数の一例を説明する。例えば、編集部１４４は、下記の数式１に示す評価関数を用いて、サブショットを選択し得る。

上記数式１におけるＷ_ｓｉＳｉ及びＷ_ｓｓＳｓは、シーンセグメントに関する項である。記号Ｗ_ｓｉ及び記号Ｗ_ｓｓは、各項の重みであり、編集部１４４により任意に設定され得る。記号Ｓｉは、シーンセグメントのセグメントＩＤに関する値（スコア）である。例えば、記号Ｓｉは、シーンセグメントのために用いられた色ＩＤ、カメラワークＩＤ、撮影日時ＩＤ及び／又は場所ＩＤに基づいて計算される。例えば、事前に設定されたテーマに沿うために、事前に設定されたテーマに沿ったセグメントＩＤの割合に近づくようにスコアが計算され得る。また、視覚的な偏りを低減するために、各セグメントＩＤが均等に選択されるようなスコアが計算され得る。記号Ｓｓは、シーンセグメントの安定度に関するスコアである。記号Ｓｓは、シーンセグメントのために用いられた色及び／又はカメラワークの安定度（時間変化量の少なさ）に基づいて計算される。例えば、安定度が高いほど、高いスコアが計算されてもよい。他にも、編集部１４４は、選択元の映像ファイルを分散させるべく、選択元の映像ファイルに関する項を上記数式１に追加してもよい。また、編集部１４４は、撮影時刻の分散を分散させるべく、選択済みの前後の選択ショットまでの時間に関する項を上記数式１に追加してもよい。

編集部１４４は、サブショットをひとつ選択する度に、上記数式１に示した評価関数を未選択の各サブショットについて計算し、評価値が最も高いサブショットを選択する。なお、各記号のスコアは、すでに選択されたサブショットとの関係で変動し得る。

（ハイライトショットの評価関数）
以下では、ハイライトショットの選択のために用いられる評価関数の一例を説明する。例えば、編集部１４４は、下記の数式２に示す評価関数を用いて、ハイライトショットを選択し得る。

上記数式２におけるＷ_ｈｉＨｉ及びＷ_ｈｓＨｓは、ハイライトに関する項である。記号Ｗ_ｈｉ及び記号Ｗ_ｈｓは、各項の重みであり、編集部１４４により任意に設定され得る。記号ＨｉはハイライトＩＤに関するスコアである。例えば、記号Ｈｉは、ハイライトＩＤに基づいて計算される。例えば、事前に設定されたテーマに沿うために、事前に設定されたテーマに沿ったハイライトＩＤの割合に近づくようにスコアが計算され得る。また、視覚的な偏りを低減するために、各ハイライトＩＤが均等に選択されるようなスコアが計算され得る。記号Ｈｓは、ハイライトショットの価値に関するスコアである。記号Ｈｓは、例えばスノーボードのジャンプであれば、滞空時間が長いほど、また回転量が多い程、高いスコアが計算され得る。他の記号については、上記数式１と同様である。

編集部１４４は、ハイライトショットをひとつ選択する度に、上記数式２に示した評価関数を未選択の各ハイライトショットについて計算し、評価値が最も高いハイライトショットを選択する。そして、編集部１４４は、既に選択されたサブショットの中から選択順序が遅かったサブショットを除去する。なお、各記号のスコアは、すでに選択されたハイライトショットとの関係で変動し得る。

編集部１４４は、記号Ｈｉを用いることで、例えばジャンプのハイライトショットが連続することを回避することができる。なお、ユーザにより要約映像に含めるべき区間として指定された区間に係るハイライトショットに関しては、記号Ｈｉに係るスコアは無視されてもよい。その場合、例えばユーザによりハイライトとして指定されたジャンプの単位映像が連続し得る。また、編集部１４４は、記号Ｈｓを用いることで、価値が高いハイライトショットを優先的に選択することが可能となる。

なお、編集部１４４は、同一ハイライトＩＤのハイライトショットの選択数を、予め設定あれた回数未満としてもよい。例えば、編集部１４４は、下記の数式を満たすハイライトショットを選択してもよい。下記数式によれば、例えば本来はジャンプのハイライトショットは２回まで選択可能であっても、記号Ｈｓのスコアが高いジャンプについては選択回数が３回以上になり得、記号Ｈｓのスコアが低いジャンプについては選択回数が２回未満になり得る。
ハイライトスコアＨｓ−減衰係数×選択回数≧閾値 …（数式３）

以上、単位映像の選択処理の一例を説明した。上記では、まずサブショットを選択し、続いてハイライトショットを選択する例を説明したが、本技術はかかる例に限定されない。例えば、編集部１４４は、まずハイライトショットを選択し、続いてサブショットを選択してもよい。その場合、編集部１４４は、まずハイライトショットを選択して、選択したハイライトショットの数を採用数から差し引いた数のサブショットを選択する。他にも、編集部１４４は、ハイライトショットとサブショットとを同時に選択してもよい。その場合、編集部１４４は、ハイライトショットとサブショットとで共通の評価関数を適用し得る。なお、サブショットについては、ハイライトＩＤ及びハイライトショットの価値に関するスコア（記号Ｈｉ及びＨｓ）は存在しないため、対応する項を任意の値（例えば０）に設定することで、共通の評価関数が適用可能となる。

［３．５．採用区間の設定処理］
編集部１４４は、抽出部１４３により抽出された単位映像に当該単位映像の内容に応じた採用区間を設定し、複数の単位映像の各々について設定した採用区間を採用するための編集情報を生成する。例えば、編集部１４４は、単位映像の内容に応じて、要約映像に採用すべき採用区間を設定し、設定した採用区間を連結するための編集情報を生成する。なお、採用区間の位置とは、単位映像のうち、要約映像に採用される区間である。採用区間は単位映像の全部であってもよいし、一部であってもよい。

例えば、編集部１４４は、単位映像の内容に応じて当該単位映像における採用区間の位置を設定してもよい。例えば、編集部１４４は、単位映像がハイライトショットであるか若しくはサブショットであるか、ハイライトＩＤ、色ＩＤ、カメラワークＩＤ等の属性は何か、といった単位映像の内容に応じて採用区間の位置を設定し得る。採用区間の位置とは、単位映像全体における当該単位映像のうち採用区間として設定される区間の位置を示し、例えば単位映像の前半、中盤、又は後半等が挙げられる。これにより、例えば鑑賞者の感情を盛り上げるためにより適切な区間が、単位映像の内容に応じて設定され、要約映像に採用されることとなる。

例えば、編集部１４４は、映像解析部１４２により解析された映像の被写体の動作に応じて単位映像における採用区間の位置を設定してもよい。例えば、スノーボードのジャンプに係るハイライトショットを想定する。編集部１４４は、映像解析部１４２により被写体の動作がジャンプであると解析された単位映像に関しては、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までのいずれかの位置に採用区間を設定してもよい。その場合、編集部１４４は、ジャンプの様々な注目すべき見どころに着目した採用区間を設定することが可能である。他の例として、スノーボードのターン（移動方向の転換）に係るハイライトショットを想定する。編集部１４４は、映像解析部１４２により被写体の動作が移動方向の転換であると解析された単位映像に関しては、転換前から転換中まで、転換中、又は転換中から転換後までのいずれかの位置に採用区間を設定してもよい。その場合、編集部１４４は、ターンの様々な注目すべき見どころに着目した採用区間を設定することが可能である。

例えば、編集部１４４は、同じ種類（同じハイライトＩＤ）の２以上のハイライトショットに採用区間を設定する場合、２以上のハイライトショットの各々における採用区間の位置を分散させてもよい。例えば、編集部１４４は、選択ショットに複数のスノーボードのジャンプに係るハイライトショットが含まれる場合、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までといった、採用区間の位置を分散させてもよい。同様に、編集部１４４は、選択ショットに複数のスノーボードのターンに係るハイライトショットが含まれる場合、転換前から転換中まで、転換中、又は転換中から転換後までといった、採用区間の位置を分散させてもよい。その場合、同じ種類のハイライトショットであっても異なる観点で採用区間が設定されるので、鑑賞者は飽きることなく要約映像を鑑賞することが可能となる。

例えば、編集部１４４は、ハイライトショットと他の種類のハイライトショット又はサブショットとを連結するよう編集情報を生成してもよい。例えば、編集部１４４は、同じハイライトＩＤのハイライトショットを連続しないように割り当てたり、連続する場合には間にサブショットを割り当てたりする。これにより、要約映像は抑揚が効いたものとなるので、鑑賞者は飽きることなく要約映像を鑑賞することが可能となる。

例えば、編集部１４４は、ハイライトショットの採用区間の長さをサブショットの採用区間の長さより長く設定してもよい。例えば、編集部１４４は、長い割り当て区間には優先的にハイライトショットを割り当てる。これにより、鑑賞者はより長い時間ハイライトショットを鑑賞することが可能となるので、より効果的に鑑賞者の感情を盛り上げることができる。

以下、図１０〜図１２を参照して、採用区間の設定処理を具体的に説明する。図１０〜図１２は、本実施形態に係る採用区間の設定処理を説明するための図である。特に、図１０では、長い割り当て区間に優先的にハイライトショットを割り当てる例を説明する。

図１０に示すように、切り替えタイミングの設定処理において設定された割り当て区間７１０の内訳は、１小節単位の割り当て区間７１１が２個、２小節単位の割り当て区間７１２が４個、３小節単位の割り当て区間７１３が１個である場合を想定する。例えば、編集部１４４は、下記の表２に示す規則に従って、長い割り当て区間には優先的にハイライトショットを割り当てる。なお、ハイライトの種類やシーンセグメントの種類等に応じて、下記表２に示す規則はさらに細分化されてもよい。

図１０に示すように、選択ショット７２０の内訳は、サブショット７２１Ａ、ハイライトショット７２２Ａ、サブショット７２１Ｂ、ハイライトショット７２２Ｂ、サブショット７２１Ｃ、サブショット７２１Ｄ及びハイライトショット７２２Ｃの順であるものとする。編集部１４４は、以下に説明するように各単位映像に割り当て区間を割り当てることで、どの単位映像をどのタイミングで切り替えるかを設定する編集情報７３０を生成する。

まず、編集部１４４は、１つ目の選択ショット７２０であるサブショット７２１Ａには、残りの割り当て区間のうち最も優先度が高い１小節単位の割り当て区間７１１Ａを割り当てる。次いで、編集部１４４は、２つ目の選択ショット７２０であるハイライトショット７２２Ａには、残りの割り当て区間のうち最も優先度が高い３小節単位の割り当て区間７１３を割り当てる。次に、編集部１４４は、３つ目の選択ショット７２０であるサブショット７２１Ｂには、残りの割り当て区間のうち最も優先度が高い１小節単位の割り当て区間７１１Ｂを割り当てる。次いで、編集部１４４は、４つ目の選択ショット７２０であるハイライトショット７２２Ｂには、残りの割り当て区間のうち最も優先度が高い２小節単位の割り当て区間７１２Ａを割り当てる。次に、編集部１４４は、５つ目の選択ショット７２０であるサブショット７２１Ｃには、残りの割り当て区間のうち最も優先度が高い２小節単位の割り当て区間７１２Ｂを割り当てる。次いで、編集部１４４は、６つ目の選択ショット７２０であるサブショット７２１Ｄには、残りの割り当て区間のうち最も優先度が高い２小節単位の割り当て区間７１２Ｃを割り当てる。最後に、編集部１４４は、７つ目の選択ショット７２０であるハイライトショット７２２Ｃには、残った２小節単位の割り当て区間７１２Ｄを割り当てる。

なお、上述した割り当てはメロディ等のひとつの構成要素ごとに行われるものとする。その場合、構成要素内でどのような割り当てが行われるにしろ、構成要素が切り替わるタイミングで単位映像が切り替わることが保証される。

続いて、図１１及び図１２を参照して、ひとつの単位映像における採用区間を設定する例を説明する。例えば、図１１に示すように、編集部１４４は、基本的には単位映像７４０の中央部分に採用区間７５０を設定する。一方で、図１２に示すように、編集部１４４は、ターン等のハイライトショットについては、単位映像７４０の前半部分、中央部分、又は後半部分に採用区間７５０を設定してもよい。ここで、編集部１４４が設定する採用区間７５０の長さは、図１０を参照して説明した、各単位映像に割り当てられた割り当て区間の長さに相当する。

以上、本実施形態に係る映像処理装置１００が有する機能について詳細に説明した。続いて、図１３を参照して、本実施形態に係る映像処理装置１００の動作処理例を説明する。

＜４．動作処理＞
図１３は、本実施形態に係る映像処理装置１００において実行される要約映像の生成処理の流れの一例を示すフローチャートである。

図１３に示すように、まず、ステップＳ１０２で、音楽解析部１４１は、入力された音楽を解析する。例えば、音楽解析部１４１は、音楽理論に基づいて、イントロ部分やコーラス部分等の音楽の構造を解析したり、コーラス部分の中でも特に重要な部分を特定したり、拍や小節を解析したりする。

次いで、ステップＳ１０４で、映像解析部１４２は、入力された映像を解析する。例えば、映像解析部１４２は、被写体動作を検出したり、ユーザ操作を検出したり、顔及び笑顔を検出したり、色を検出したり、カメラワークを検出したりする。

次に、ステップＳ１０６で、編集部１４４は、単位映像の切り替えタイミングを設定する。例えば、編集部１４４は、ステップＳ１０２における音楽解析結果に基づいて、拍毎、１小節ごと、又は複数小節ごとに切り替えタイミングを設定する。その際、編集部１４４は、コーラス部分の中でも特に重要な部分で拍に応じた切り替えが行われるよう設定し得る。本ステップにより、最長の割り当て区間長が定まる。

次いで、ステップＳ１０８で、編集部１４４は、要約映像へ採用される単位映像の数（採用数）を計算する。例えば、編集部１４４は、上記ステップＳ１０６において設定した切り替えタイミングにより定まる割り当て区間の数に基づいて採用数を計算する。詳しくは、編集部１４４は、単位映像に重複がない場合は割り当て区間の数をそのまま採用数とし、重複が有る場合はその分を割り当て区間の数から差し引くことで、採用数を計算する。

次に、ステップＳ１１０で、抽出部１４３は、単位映像を抽出する。例えば、抽出部１４３は、上記ステップＳ１０４における映像解析結果に基づいて、ハイライトショット及びサブショットを抽出する。その際、抽出部１４３は、上記ステップＳ１０６において設定された切り替えタイミングにより定まる割り当て区間のうち最長の割り当て区間以上の長さで単位映像を抽出する。また、抽出部１４３は、抽出したハイライトショット及びサブショットの総数を、抽出数として計算する。

次いで、ステップＳ１１２で、動作モード制御部１４５は、抽出数が採用数以上であるか否かを判定する。

抽出数が採用数以上ではないと判定された場合（Ｓ１１２／ＮＯ）、ステップＳ１１４で、動作モード制御部１４５は、動作モードを変更する。例えば、動作モード制御部１４５は、変更前が通常動作モードであれば、分割処理モードに変更する。そして、処理はステップＳ１０６へ戻る。このように、抽出数が採用数以上となるまで、動作モード制御部１４５は動作モードを変更して処理をステップＳ１０６へ戻す。なお、どの動作モードであっても抽出数が採用数以上とならない場合、映像処理装置１００は、エラーを出力して処理を停止してもよい。

抽出数が採用数以上であると判定された場合（Ｓ１１２／ＹＥＳ）、ステップＳ１１６で、編集部１４４は、要約映像へ採用する単位映像を選択する。例えば、編集部１４４は、抽出部１４３により抽出された単位映像の中から、視覚的な偏りを低減するために属性が分散する単位映像を採用したり、ユーザにより指定されたテーマに沿うように単位映像を選択したりする。なお、編集部１４４は、サブショットと比較してハイライトショットを優先的に採用してもよい。

次に、ステップＳ１１８で、編集部１４４は、各単位映像の採用区間を設定する。例えば、編集部１４４は、上記ステップＳ１１６において選択した各単位映像のうち、要約映像に採用すべき採用区間を設定する。その際、編集部１４４は、単位映像の内容に応じて、例えば特に注目すべき区間が要約映像に採用されるよう、適切な位置に採用区間を設定する。なお、編集部１４４は、以上説明した処理結果を編集情報に格納する。

そして、ステップＳ１２０で、要約映像生成部１４６は、要約映像を生成する。例えば、要約映像生成部１４６は、編集情報により指定された音楽をＢＧＭとして、編集情報により指定された単位映像を指定されたタイミングで切り替えて連結することで、要約映像を生成する。

以上、本実施形態に係る要約映像の生成処理の流れの一例を説明した。

＜５．ハードウェア構成例＞
最後に、図１４を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１４は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図１４に示す情報処理装置９００は、例えば、図４に示した映像処理装置１００を実現し得る。本実施形態に係る映像処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図１４に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３及びセンサ９１５を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図４に示す制御部１４０を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置９０６は、例えば、図４に示す操作部１１２を形成し得る。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。上記表示装置及び上記音声出力装置は、例えば、図４に示す出力部１３０を形成し得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図４に示す記憶部１２０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。接続ポート９１１は、例えば、図４に示す音楽取得部１１４を形成し得る。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、図４に示す音楽取得部１１４を形成し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

センサ９１５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサである。センサ９１５は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９１５は、ＧＰＳ信号を受信して装置の緯度、経度及び高度を測定するＧＰＳセンサを含んでもよい。センサ９１５は、例えば、図４に示すセンサ部１１１を形成し得る。本実施形態においては、センサ９１５は、情報処理装置９００と分離していてもよい。例えば、センサ９１５は被写体に装着され、情報処理装置９００は、被写体をセンシングした結果を示す情報を有線又は無線通信により取得してもよい。

撮像装置９１７は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサアレイや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサアレイにより実現されてもよい。撮像装置９１７は、デジタル信号とされた撮影画像のデータを出力する。撮像装置９１７は、例えば、図４に示す映像取得部１１３を形成し得る。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜６．まとめ＞
以上、図１〜図１４を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る映像処理装置１００は、音楽に合わせた適切なタイミングで適切な単位映像が切り替わることで、鑑賞者の感情を盛り上げることが可能な要約映像を生成することが可能である。

より詳しくは、映像処理装置１００は、入力された音楽の拍を解析し、入力された映像から複数の単位映像を抽出し、抽出した単位映像を拍に応じて切り替えるための編集情報を生成する。これにより、拍に応じた速いタイミングで単位映像が切り替わるので、鑑賞者の感情をより効果的に盛り上げることが可能である。

また、映像処理装置１００は、抽出した単位映像に当該単位映像の内容に応じた採用区間を設定し、複数の単位映像の各々について設定した採用区間を採用するための編集情報を生成する。これにより、映像処理装置１００は、要約映像に採用される候補として抽出された区間の各々について、抽出された区間の各々のうち特に鑑賞すべき区間に、実際に要約映像に採用する区間を設定することが可能となる。よって、例えば鑑賞者の感情を盛り上げるためにより適切な区間が、要約映像に採用されることとなる。

また、映像処理装置１００は、入力された映像から単位映像を抽出する処理、及び入力された音楽に応じて単位映像を切り替えるタイミングを設定する処理に関する動作モードを制御する。これにより、映像処理装置１００は、音楽に応じて映像を切り替える要約映像の生成を適切な動作モードで行うことが可能である。具体的には、映像処理装置１００は、採用数と抽出数とが等しい又は抽出数の方が多い状態となるよう動作モードを切り替えることにより、設定した切り替えタイミングでそれぞれ異なる単位映像を切り替えることができる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図４に示した映像処理装置１００の機能構成例のうち、記憶部１２０及び制御部１４０が、入力部１１０及び出力部１３０とネットワーク等で接続されたサーバ等の装置に備えられていても良い。

また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
入力された映像の内容を解析することと、
前記映像の解析結果に基づいて前記映像から複数の単位映像を抽出することと、
抽出された前記単位映像に前記単位映像の内容に応じた採用区間を設定し、複数の前記単位映像の各々について設定した前記採用区間を採用するための編集情報をプロセッサにより生成することと、
を含む映像処理方法。
（２）
前記編集情報を生成することにおいて、前記単位映像の内容に応じて前記単位映像における前記採用区間の位置を設定する、前記（１）に記載の映像処理方法。
（３）
前記編集情報を生成することにおいて、前記映像の解析結果が示す前記映像の被写体の動作に応じて前記単位映像における前記採用区間の位置を設定する、前記（２）に記載の映像処理方法。
（４）
前記編集情報を生成することにおいて、前記映像の被写体の動作がジャンプであると解析された前記単位映像に関しては、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までのいずれかの位置に前記採用区間を設定する、前記（３）に記載の映像処理方法。
（５）
前記編集情報を生成することにおいて、前記映像の被写体の動作が移動方向の転換であると解析された前記単位映像に関しては、転換前から転換中まで、転換中、又は転換中から転換後までのいずれかの位置に前記採用区間を設定する、前記（３）又は（４）に記載の映像処理方法。
（６）
前記単位映像を抽出することにおいて、前記映像の解析結果に基づいて前記単位映像の注目度を設定する、前記（１）〜（５）のいずれか一項に記載の映像処理方法。
（７）
前記編集情報を生成することにおいて、同じ種類の２以上の注目度が高い前記単位映像に前記採用区間を設定する場合、２以上の前記単位映像の各々における前記採用区間の位置を分散させる、前記（６）に記載の映像処理方法。
（８）
前記編集情報を生成することにおいて、注目度が高い前記単位映像の前記採用区間と注目度が高い他の種類の前記単位映像又は注目度が低い前記単位映像の前記採用区間とを連結する、前記（６）又は（７）に記載の映像処理方法。
（９）
前記編集情報を生成することにおいて、注目度が高い前記単位映像の前記採用区間の長さを注目度が低い前記単位映像の前記採用区間の長さより長く設定する、前記（６）〜（８）のいずれか一項に記載の映像処理方法。
（１０）
前記単位映像を抽出することにおいて、前記単位映像の撮影区間における被写体の動作が所定の動作であると解析された場合、被写体の状態が所定の状態であると解析された場合又は所定の操作があったと解析された場合に、当該単位映像に高い注目度を設定し、他の場合に低い注目度を設定する、前記（６）〜（９）のいずれか一項に記載の映像処理方法。
（１１）
入力された映像の内容を解析する映像解析部と、
前記映像解析部による解析結果に基づいて前記映像から複数の単位映像を抽出する抽出部と、
前記抽出部により抽出された前記単位映像に前記単位映像の内容に応じた採用区間を設定し、複数の前記単位映像の各々について設定した前記採用区間を採用するための編集情報を生成する編集部と、
を備える映像処理装置。
（１２）
前記編集部は、前記単位映像の内容に応じて前記単位映像における前記採用区間の位置を設定する、前記（１１）に記載の映像処理装置。
（１３）
前記編集部は、前記映像解析部により解析された前記映像の被写体の動作に応じて前記単位映像における前記採用区間の位置を設定する、前記（１２）に記載の映像処理装置。
（１４）
前記編集部は、前記映像解析部により被写体の動作がジャンプであると解析された前記単位映像に関しては、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までのいずれかの位置に前記採用区間を設定する、前記（１３）に記載の映像処理装置。
（１５）
コンピュータを、
入力された映像の内容を解析する映像解析部と、
前記映像解析部による解析結果に基づいて前記映像から複数の単位映像を抽出する抽出部と、
前記抽出部により抽出された前記単位映像に前記単位映像の内容に応じた採用区間を設定し、複数の前記単位映像の各々について設定した前記採用区間を採用するための編集情報を生成する編集部と、
として機能させるためのプログラム。

さらに、以下のような構成も本開示の技術的範囲に属する。
（１）
入力された映像から複数の単位映像を抽出することと、
抽出された前記単位映像から採用した前記単位映像を、入力された音楽に応じて切り替
えるための編集情報を生成することと、
前記単位映像を抽出する抽出処理及び前記単位映像を採用する採用処理における動作モ
ードをプロセッサにより制御することと、
を含む映像処理方法。
（２）
前記動作モードを制御することにおいて、第１の動作モードにおける、抽出される前記
単位映像の抽出数と採用される前記単位映像の採用数との大小関係に応じて、再度の前記
抽出処理又は再度の前記採用処理の少なくともいずれかを、前記動作モードを変更して実
施させる否かを判定する、前記（１）に記載の映像処理方法。
（３）
前記映像処理方法は、
前記音楽の内容を解析することと、
前記映像の内容を解析することと、
をさらに含み、
前記抽出数は、前記映像の解析結果に基づいて抽出された前記単位映像の数であり、
前記採用数は、前記音楽の解析結果に基づいて前記音楽が区切られた数である、前記（
２）に記載の映像処理方法。
（４）
前記動作モードを制御することにおいて、前記第１の動作モードにおける前記採用数と
前記抽出数とが等しい又は前記抽出数の方が多い場合に、前記動作モードの変更を行わな
いと判定する、前記（３）に記載の映像処理方法。
（５）
前記動作モードを制御することにおいて、前記第１の動作モードにおける前記抽出数が
前記採用数よりも少ない場合に、前記動作モードを第２の動作モードとし、
前記抽出処理において、前記第２の動作モードの場合、前記第１の動作モードにおいて
抽出された前記単位映像のうち少なくともいずれかを２以上の前記単位映像に分割する、
前記（４）に記載の映像処理方法。
（６）
前記抽出処理において、前記音楽が区切られる最長の区間以上の長さの前記単位映像を
抽出する、前記（４）又は（５）に記載の映像処理方法。
（７）
前記動作モードを制御することにおいて、前記第１の動作モードにおける前記抽出数が
前記採用数よりも少ない場合に、前記動作モードを第３の動作モードとし、
前記採用処理は、前記第３の動作モードの場合、前記第１の動作モードと比較して前記
音楽が区切られる最長の区間を短くする、前記（６）に記載の映像処理方法。
（８）
前記動作モードを制御することにおいて、前記第１の動作モードにおける前記抽出数が

前記採用数よりも少ない場合に、前記動作モードを第４の動作モードとし、
前記抽出処理において、前記第４の動作モードの場合、前記第１の動作モードと比較し
て前記単位映像を抽出するための前記映像の解析結果に関する条件を緩和する、前記（４
）〜（７）のいずれか一項に記載の映像処理方法。
（９）
前記動作モードを制御することにおいて、前記第１の動作モードにおける前記抽出数が
前記採用数よりも少ない場合に、前記動作モードを第５の動作モードとし、
前記採用処理において、前記第５の動作モードの場合、所定の間隔で前記音楽を区切り
前記抽出処理において、前記第５の動作モードの場合、前記映像を前記所定の間隔で区
切った前記単位映像を抽出する、前記（４）〜（８）のいずれか一項に記載の映像処理方
法。
（１０）
入力された映像から複数の単位映像を抽出する抽出部と、
前記抽出部により抽出された前記単位映像から採用した前記単位映像を、入力された音
楽に応じて切り替えるための編集情報を生成する編集部と、
前記抽出部及び前記編集部における動作モードを制御する動作モード制御部と、
を備える映像処理装置。
（１１）
前記動作モード制御部は、第１の動作モードにおける、前記抽出部により抽出される前
記単位映像の抽出数と前記編集部により採用される前記単位映像の採用数との大小関係に
応じて、前記抽出部による再度の抽出処理又は前記編集部による再度の採用処理の少なく
ともいずれかを、前記動作モードを変更して実施させる否かを判定する、前記（１０）に
記載の映像処理装置。
（１２）
前記映像処理装置は、
前記音楽の内容を解析する音楽解析部と、
前記映像の内容を解析する映像解析部と、
をさらに備え、
前記抽出数は、前記映像解析部による解析結果に基づいて前記抽出部により抽出された
前記単位映像の数であり、
前記採用数は、前記音楽解析部による解析結果に基づいて前記編集部により前記音楽が
区切られた数である、前記（１１）に記載の映像処理装置。
（１３）
前記動作モード制御部は、前記第１の動作モードにおける前記採用数と前記抽出数とが
等しい又は前記抽出数の方が多い場合に、前記動作モードの変更を行わないと判定する、
前記（１２）に記載の映像処理装置。
（１４）
コンピュータを、
入力された映像から複数の単位映像を抽出する抽出部と、
前記抽出部により抽出された前記単位映像から採用した前記単位映像を、入力された音
楽に応じて切り替えるための編集情報を生成する編集部と、
前記抽出部及び前記編集部における動作モードを制御する動作モード制御部と、
として機能させるためのプログラム。

（１）
入力された映像の内容を解析することと、
音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定すること、を含む情報処理方法。
（２）
前記採用区間を設定するための編集情報を生成すること、を含む前記（１）に記載の情報処理方法。
（３）
前記映像の解析結果が示す前記映像の被写体の動作に応じて前記映像における前記採用区間の位置を設定すること、を含む前記（１）又は（２）に記載の情報処理方法。

（４）
前記映像の被写体の動作がジャンプであると解析された前記映像に関しては、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までのいずれかの位置に前記採用区間を設定すること、を含む前記（３）に記載の情報処理方法。
（５）
前記映像の被写体の動作が移動方向の転換であると解析された前記映像に関しては、転換前から転換中まで、転換中、又は転換中から転換後までのいずれかの位置に前記採用区間を設定すること、を含む前記（４）に記載の情報処理方法。
（６）
第１の採用区間に対応する第１の音楽の区間の直後の第２の音楽の区間に対応する第２の採用区間を設定すること、を含む前記（１）に記載の情報処理方法。
（７）
前記の音楽の構成要素に基づいて前記の音楽の区間の情報を生成すること、を含む前記（１）に記載の情報処理方法。
（８）
前記音楽の区間は少なくとも小節区間、ビート区間を含むこと、を含む前記（１）又は（７）に記載の情報処理方法。
（９）
前記映像の解析によって設定された注目度と前記採用区間を関連付けること、を含む前記（１）に記載の情報処理方法。
（１０）
複数の前記採用区間を連結する際に、前記シーン情報が同じ種類の前記採用区間は位置を分散させること、を含む前記（１）又は（９）に記載の情報処理方法。
（１１）
高い注目度に関連付いた前記採用区間と高い注目度に関連付いた他の種類の前記採用区間、又は低い注目度に関連付いた前記採用区間とを連結すること、を含む前記（９）に記載の情報処理方法。
（１２）
高い注目度に関連付いた前記採用区間の長さを、低い注目度に関連付いた前記採用区間の長さより長く設定すること、を含む前記（９）又は（１１）に記載の情報処理方法。
（１３）
前記映像内の被写体の動作が所定の動作又は状態であると解析された場合、又は所定の操作があったと解析された場合に、前記映像に高い注目度を設定すること、を含む前記（１）又は（３）〜（５）に記載の情報処理方法。
（１４）
前記映像から単位映像を抽出し、前記単位映像から採用する前記採用区間の位置を設定することと、
前記映像の解析結果に基づいて前記単位映像の注目度を設定することと、を含む前記（１）又は（９）に記載の情報処理方法。
（１５）
入力された映像の内容を解析する映像解析部と、
音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定する抽出部と、
を備える映像処理装置。
（１６）
コンピュータを、
入力された映像の内容を解析する映像解析部と、
音楽の区間の情報と解析された前記映像のシーン情報とに基づいて、前記映像から採用する採用区間の位置を設定する抽出部と、
として機能させるためのプログラム。

１０映像
２０映像解析結果情報
３０音楽
４０編集情報
５０要約映像
１００映像処理装置
１１０入力部
１１１センサ部
１１２操作部
１１３映像取得部
１１４音楽取得部
１２０記憶部
１３０出力部
１４０制御部
１４１音楽解析部
１４２映像解析部
１４３抽出部
１４４編集部
１４５動作モード制御部
１４６要約映像生成部

Claims

入力された映像の内容を解析することと、
前記映像の解析結果に基づいて、前記映像から複数の単位映像を抽出することと、
音楽の解析情報に基づいて、複数の単位映像を入力された音楽に応じて切り替える切り替えタイミングを設定することと、
前記切り替えタイミングにより定まる前記音楽が区切られる割り当て区間の数に基づいて、単位映像の採用数を計算することと、
単位映像が抽出される数である抽出数が前記採用数以上となるように、前記単位映像を抽出する処理、及び前記切り替えタイミングを設定する処理に関する動作モードを制御することと、
前記複数の単位映像の各々について、前記映像のシーン情報に基づいて、当該単位映像のうち要約映像に採用される区間である採用区間の位置を設定すること、
を含む情報処理方法。
前記採用区間を設定するための編集情報を生成すること、を含む請求項１に記載の情報処理方法。
前記映像の解析結果が示す前記映像の被写体の動作に応じて前記映像における前記採用区間の位置を設定すること、を含む請求項１又は２に記載の情報処理方法。
前記映像の被写体の動作がジャンプであると解析された前記映像に関しては、助走中、助走中から滞空中まで、滞空中、滞空中から着地後、又は着地から着地後までのいずれかの位置に前記採用区間を設定すること、を含む請求項３に記載の情報処理方法。
前記映像の被写体の動作が移動方向の転換であると解析された前記映像に関しては、転換前から転換中まで、転換中、又は転換中から転換後までのいずれかの位置に前記採用区間を設定すること、を含む請求項３又は４に記載の情報処理方法。
第１の採用区間に対応する第１の音楽の区間の直後の第２の音楽の区間に対応する第２の採用区間を設定すること、を含む請求項１に記載の情報処理方法。
前記の音楽の構成要素に基づいて前記の音楽の区間の情報を生成すること、を含む請求項１に記載の情報処理方法。
前記音楽の区間は少なくとも小節区間、ビート区間を含むこと、を含む請求項１〜７のいずれか一項に記載の情報処理方法。
前記映像の解析によって設定された注目度と前記採用区間を関連付けること、を含む請求項１に記載の情報処理方法。
複数の前記採用区間を連結する際に、前記シーン情報が同じ種類の前記採用区間は位置を分散させること、を含む請求項１〜９のいずれか一項に記載の情報処理方法。
高い注目度に関連付いた前記採用区間と高い注目度に関連付いた他の種類の前記採用区間、又は低い注目度に関連付いた前記採用区間とを連結すること、を含む請求項９に記載の情報処理方法。
高い注目度に関連付いた前記採用区間の長さを、低い注目度に関連付いた前記採用区間の長さより長く設定すること、を含む請求項９又は１１に記載の情報処理方法。
前記映像内の被写体の動作が所定の動作又は状態であると解析された場合、又は所定の操作があったと解析された場合に、前記映像に高い注目度を設定すること、を含む請求項１又は請求項３〜５のいずれか一項に記載の情報処理方法。
前記映像の解析結果に基づいて前記単位映像の注目度を設定することと、を含む請求項１〜９のいずれか一項に記載の情報処理方法。
入力された映像の内容を解析する映像解析部と、
前記映像の解析結果に基づいて、前記映像から複数の単位映像を抽出する抽出部と、
音楽の解析情報に基づいて、複数の単位映像を入力された音楽に応じて切り替える切り替えタイミングを設定し、
前記切り替えタイミングにより定まる前記音楽が区切られる割り当て区間の数に基づいて、単位映像の採用数を計算し、
前記複数の単位映像の各々について、前記映像のシーン情報に基づいて、当該単位映像のうち要約映像に採用される区間である採用区間の位置を設定する編集部と、
単位映像が抽出される数である抽出数が前記採用数以上となるように、前記単位映像を抽出する処理、及び前記切り替えタイミングを設定する処理に関する動作モードを制御する動作モード制御部と、
を備える映像処理装置。
コンピュータを、
入力された映像の内容を解析する映像解析部と、
前記映像の解析結果に基づいて、前記映像から複数の単位映像を抽出する抽出部と、
音楽の解析情報に基づいて、複数の単位映像を入力された音楽に応じて切り替える切り替えタイミングを設定し、
前記切り替えタイミングにより定まる前記音楽が区切られる割り当て区間の数に基づいて、単位映像の採用数を計算し、
前記複数の単位映像の各々について、前記映像のシーン情報に基づいて、当該単位映像のうち要約映像に採用される区間である採用区間の位置を設定する編集部と、
単位映像が抽出される数である抽出数が前記採用数以上となるように、前記単位映像を抽出する処理、及び前記切り替えタイミングを設定する処理に関する動作モードを制御する動作モード制御部と
を備える映像処理装置
として機能させるためのプログラム。