JP2018186418A

JP2018186418A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2018186418A
Application number: JP2017087638A
Authority: JP
Inventors: 将小野澤; Susumu Onozawa
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2018-11-22
Anticipated expiration: 2037-04-26
Also published as: US20180314919A1; CN108810398B; JP6614198B2; US10762395B2; CN108810398A

Abstract

【課題】ユーザにとって趣向性の高い集約画像を提供すること。【解決手段】撮像装置１は、画像取得部５２と、画像選択部５７と、動画生成部５８とを備える。画像取得部５２は、複数の画像を取得する。画像選択部５７は、複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択する。動画生成部５８は、選択された画像を１つの画像に合成する。【選択図】図６

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。

従来、複数の画像からいくつかの画像を選択してコラージュ画像や動画を生成する技術がある（特許文献１参照）。

特開２０１６−０６６３４３号公報

上記特許文献１に記載された技術では、複数の画像から評価の高い画像を優先的に選択してコラージュ画像や動画を生成することでユーザ評価の高い画像を集約した集約画像を生成することはできる。
しかしながら、上記特許文献１に記載された技術では、評価の高い画像の構図が似通い、単調な集約画像になってしまうことがあるという課題があった。

本発明は係る問題に鑑みてなされたものであり、ユーザにとって趣向性の高い集約画像を提供することを目的とする。

上記目的を達成するため、本発明の一態様の画像処理装置は、
複数の画像を取得する取得手段と、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成手段と、
を備えることを特徴とする。

本発明によれば、ユーザにとって趣向性の高い集約画像を提供することができる。

本発明の一実施形態に係る撮像装置のハードウェアの構成を示すブロック図である。スコア別最適化の具体例を示す模式図であり、図２（ａ）は各画像の個別再生時間及び画像スコアを示す図、図２（ｂ）は、画像を選択するための画像スコアの積算経路を示す図である。画像の分類を示すカテゴリを示す模式図である。ストーリーマップの一例を示す模式図である。ストーリーマップに則した画像選択の具体例を示す模式図であり、図５（ａ）は各画像のカテゴリ、個別再生時間及び画像スコアを示す図、図５（ｂ）はカテゴリ間に設定されたボーナス乗数を示す図、図５（ｃ）は、画像を選択するための画像スコアの積算経路を示す図である。図１の撮像装置の機能的構成のうち、ハイライト動画生成処理を実行するための機能的構成を示す機能ブロック図である。生成されたハイライト動画の一例を示す模式図である。図６の機能的構成を有する図１の撮像装置が実行するハイライト動画生成処理の流れを説明するフローチャートである。

以下、本発明の実施形態について、図面を用いて説明する。
図１は、本発明の一実施形態に係る撮像装置１のハードウェアの構成を示すブロック図である。
撮像装置１は、例えば、デジタルカメラとして構成される。

撮像装置１は、図１に示すように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、撮像部１６と、センサ部１７と、入力部１８と、出力部１９と、記憶部２０と、通信部２１と、ドライブ２２と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、または、記憶部２０からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。

ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、撮像部１６、センサ部１７、入力部１８、出力部１９、記憶部２０、通信部２１及びドライブ２２が接続されている。

撮像部１６は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。

光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。
なお、撮像部１６には、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。

イメージセンサは、光電変換素子や、ＡＦＥ（ＡｎａｌｏｇＦｒｏｎｔＥｎｄ）等から構成される。
光電変換素子は、例えばＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換（撮像）して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてＡＦＥに順次供給する。
ＡＦＥは、このアナログの画像信号に対して、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部１６の出力信号として出力される。
このような撮像部１６の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、ＣＰＵ１１や図示しない画像処理部等に適宜供給される。

センサ部１７は、加速度や角速度の情報を取得する加速度センサやジャイロセンサといった各種センサにより構成される。
本実施形態においては、撮像部１６において撮影が行われた場合には、撮影時のセンサ情報を取得して、撮影した画像に対応付けて記憶しておく。

入力部１８は、各種釦等で構成され、ユーザの指示操作に応じて各種情報を入力する。

出力部１９は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。

記憶部２０は、ハードディスクあるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各種画像のデータを記憶する。

通信部２１は、インターネットを含むネットワークを介して他の装置（図示せず）との間で行う通信を制御する。

ドライブ２２には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２２によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部２０にインストールされる。また、リムーバブルメディア３１は、記憶部２０に記憶されている画像のデータ等の各種データも、記憶部２０と同様に記憶することができる。

このように構成される撮像装置１では、記憶している複数の画像（ここでは動画とする）を閲覧しようとする場合、全てを閲覧するには膨大な時間を要してしまうため、特徴的な画像だけを選択して、ユーザの閲覧に供する機能を有する。本実施形態の撮像装置１では、選択した画像を結合することにより、特徴的なシーンのみを集めた集約画像（以下、「ハイライト動画」ともいう。）を生成して、ユーザの閲覧に供する。このとき、撮像装置１では、記憶している複数の画像を複数のカテゴリに分類し、ハイライト動画における時系列のカテゴリの構成（以下、「ストーリーマップ」ともいう。）が設定されたデータを用いて画像を選択し、ハイライト動画を生成する。

［画像の組み合わせの選択手法（スコア別最適化）の基本的な流れ］
本実施形態においては、撮像装置１では、画像の撮影時のセンサ情報（加速度情報や角速度情報）、画像解析結果（顔等の特定の被写体の有無等）、及び使用状況に関する情報（再生回数やＳＮＳへのアップロード情報等）といった属性情報に基づいて、ハイライト動画の生成対象の候補となる画像（以下、「候補画像」ともいう。）の特徴量を算出する。
そして、算出した特徴量に基づいて、画像の価値としてのスコア（以下、適宜「画像スコア」という。）を設定する。なお、画像スコアは、人の主観に基づいて特徴量算出に用いた項目に応じて一義的に設定してもよいし、主観的な評価結果を教師データとして機械学習に基づいて特徴量の項目のそれぞれに重み付けをして、重み付けに応じて、総合的に設定してもよい。

また、撮像装置１では、ハイライト動画の最大再生時間を上限として、個別再生時間の合計（合計再生時間）が最大再生時間内に収まる画像の組み合わせにおいて、各画像の画像スコアを積算したスコア（以下、「積算スコア」という。）が最大の組み合わせとなる経路を画像の撮像順に沿って探索する。ここで、本実施形態においては、動画の最大再生時間の制約下において、積算スコアの最大の経路を選択することを「スコア別最適化」という。

図２は、スコア別最適化の具体例を示す模式図であり、図２（ａ）は各画像（Ｉｍａｇｅ）の個別再生時間（Ｔｉｍｅ）及び画像スコア（Ｓｃｏｒｅ）を示す図、図２（ｂ）は、画像を選択するための画像スコアの積算経路を示す図である。本例では、ハイライト動画の最大再生時間は、６ｓｅｃに設定されている。
なお、図２（ｂ）においては、起点ノードからの経路として、個別再生時間の組み合わせや画像スコア等の観点から適切な経路とならない経路を「淘汰パス」、設定可能な経路を「親パス」、積算スコアが最も高くなる経路を最適パスとして示している。

具体的には、本実施形態においては、個別再生時間と撮影順の画像とのマトリクスに、撮影順に画像を組み合わせた経路を設定する。各経路の組み合わせのうち、経路にある画像の画像スコアを積算した積算スコアが最大となる経路の組み合わせを、ハイライト動画を構成する画像群として選択する。
「撮影順に画像が組み合わされた経路」とは、本実施形態においては画像の撮影順に沿って最初の画像から最後の画像に向かって順番に経路探索を行うことで算出される経路のことである。

図２（ｂ）の例では、撮影順に画像Ａ乃至画像Ｅを、ハイライト画像を構成するフレーム画像の候補の画像としている。
画像Ａ乃至画像Ｅでは、画像の特徴量に基づいて算出された画像スコアが設定されており、画像Ａ［Ｓｃｏｒｅ：８］、画像Ｂ［Ｓｃｏｒｅ：５］、画像Ｃ［Ｓｃｏｒｅ：７］、画像Ｄ［Ｓｃｏｒｅ：６］、画像Ｅ［Ｓｃｏｒｅ：７］となっている。また、画像の個別再生時間が設定されており、画像Ａ［Ｔｉｍｅ：２ｓｅｃ］、画像Ｂ［Ｔｉｍｅ：３ｓｅｃ］、画像Ｃ［Ｔｉｍｅ：２ｓｅｃ］、画像Ｄ［Ｔｉｍｅ：３ｓｅｃ］、画像Ｅ［Ｔｉｍｅ：２ｓｅｃ］が設定される。なお、個別再生時間は、画像スコア等に対応して設定するように構成してもよい。具体的には、例えば、画像スコアの高い画像は個別再生時間を長く、画像スコアの低い画像は個別再生時間を短く設定するように構成してもよい。

このように画像スコアと個別再生時間が設定された画像群において、図２（ｂ）に示すように、縦軸が画像の撮影順で、横軸が動画の再生時間のマトリクスにおいて、設定された動画の最大再生時間内に納まるように、撮影順に画像が組み合わされた経路を設定する。
設定した経路において、経路を構成する全ての画像の積算スコアを算出して、最大の積算スコアの経路の組み合わせを選択する。
本例では各経路のうち、積算スコア［２２］となる経路が、積算スコアが最大となる経路となる。この経路は、画像Ａを起点ノードとして、画像Ｃと、画像Ｅの組み合わせからなる。即ち、画像Ａ→画像Ｃ→画像Ｅの経路が最適パスとなる。
なお、本例では、積算スコアのみを考慮したスコア別最適化を行ったが、合計再生時間を長くすることを考慮するスコア別最適化を行うように構成してもよい。
その場合、合計再生時間も最大の６ｓｅｃとなり、積算スコアも［２１］と比較的高くなる画像Ａを起点ノードとする画像Ｄと、画像Ｅの組み合わせの経路を選択する。

その後、撮像装置１では、選択された経路における再生順で、各画像の個別再生時間を合計した合計再生時間からなるハイライト動画を作成することができる。

［ストーリーマップに則した選択手法（ストーリーフィッティング）］
上述したようなスコア別最適化を行った場合、特徴量と画像スコアとが関連しているために選択される組み合わせにおいて類似した画像が含まれてしまうことがある。また、ハイライト動画の作品性という観点からは、必ずしも画像としての価値（画像スコア）が高いもの（特徴的なもの）ばかりを列挙することが適切なわけではない。例えば、ところどころに空気感を演出するような画像（味付けの意味合いを有する画像）を挿入することで、メリハリのある動画とする方が好ましい場合もある。

そこで、本手法では、ハイライト動画における時系列のカテゴリの配列（ストーリーマップ）を用意し、このストーリーマップを参照して、カテゴリに分類された複数の画像の中から、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を選択して合成する。これにより、ストーリーマップで意図されたストーリー構成に則した動画を生成することができる。

本手法による画像選択を行う場合、まず、各画像がカテゴリに分類される。
図３は、画像の分類を示すカテゴリを示す模式図である。
図３に示すように、各画像は、その画像内容あるいは撮影時に取得されたパラメータ（各種センサの情報を含む）等に応じて、複数のカテゴリに分類することができる。
例えば、複数の人物がポーズを決めて撮影されている画像は、ハイライト動画を編集する際の中心となる注目度の高いカテゴリの画像（以下、「メイン画像」という。）とすることができる。メイン画像としては、人物が集合して撮影されているものや、人物の笑顔が撮影されているものを選択することができる。また、メイン画像の要素は含んでおらず、メイン画像に比して注目度は高くないものの、撮影者が意図的に狙って撮影した画像は、ハイライト動画を編集する際にメイン画像に準ずるカテゴリの画像（以下、「サブ画像」という。）とすることができる。サブ画像としては、例えば、メイン画像よりも少ない数の人物が撮影されているものや、特有の構図で撮影されているもの（足元の画像等）を選択することができる。また、時間的または空間的な指標が撮影されている画像は、撮影画像群における時間的または空間的な流れを示すカテゴリの画像（以下、「キー画像」という。）とすることができる。キー画像としては、例えば、道標や時計等の場所や時刻の目印になるような被写体が撮影されているものを選択することができる。さらに、通常の風景が撮影されている画像は、現場の臨場感を表現するカテゴリの画像（以下、「シズル画像」という。）とすることができる。シズル画像としては、例えば、人物の歩行シーンや歩行路面が撮影されているものを選択することができる。

なお、カテゴリの種類及び数は、ハイライト動画の生成目的等に応じて、適宜設定することができ、上述の４種類以外とすることが可能である。
ここで、各画像を複数のカテゴリに分類する場合、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いたディープラーニングを用いることができる。この場合、ユーザによって各カテゴリに予め分類された画像を教師データとし、この教師データを用いて、カテゴリの分類器に学習を行わせる。そして、学習を経た分類器に未分類の画像を入力（例えば、画素データやセンサ情報を要素として入力）することにより、各画像をいずれかのカテゴリに分類することができる。

なお、ディープラーニングによって各画像をカテゴリに分類する他、ユーザの判断によって各画像にカテゴリを設定したり、各画像の画像内容あるいは撮影時に取得されたパラメータを条件判断して自動的にカテゴリを設定したりすることも可能である。自動的に画像にカテゴリを設定する場合、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）やＢｏＦ（Ｂａｇ−ｏｆ−Ｆｅａｔｕｒｅ）等の機械学習やＢａｙｅｓ等の確率モデルを用いることも可能である。この場合には、各画像から特徴量に変換が行われる。例えば、画像内容からは、人や顔の数、カラーヒストグラムあるいは構図等を基に特徴量への変換を行うことができる。一方、センサ情報からは、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）解析結果や自己相関量等を用いて特徴量への変換を行うことができる。

そして、このようなカテゴリを時系列に配置したストーリーマップに対して、撮影画像群における各画像のカテゴリ、画像スコア及び撮影順（時系列における位置）に基づいて、ストーリーマップに対するフィッティングが行われる。
図４は、ストーリーマップの一例を示す模式図である。
図４に示すように、ストーリーマップは、全体の再生時間が定められ、時系列にカテゴリが配列されたデータとして構成される。

本実施形態においては、ストーリーマップに配列されるカテゴリは、カテゴリ毎に画像の再生時間が予め設定されている。
そして、後述するように、ストーリーマップに配列された各カテゴリには、撮影画像群における各画像のうち、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像が選択される。このとき、選択された画像の個別再生時間がカテゴリに設定された再生時間よりも長い場合には、画像の個別再生時間がストーリーマップのカテゴリに対応する再生時間にクリッピング（ここでは超過分を削除）される。

図５は、ストーリーマップに則した画像選択の具体例を示す模式図であり、図５（ａ）は各画像のカテゴリ（Ｃａｔｅｇｏｒｙ）、個別再生時間（Ｔｉｍｅ）及び画像スコア（Ｓｃｏｒｅ）を示す図、図５（ｂ）はカテゴリ間に設定されたボーナス乗数を示す図、図５（ｃ）は、画像を選択するための画像スコアの積算経路を示す図である。なお、図５に示す例では、説明を簡単にするため、各画像のカテゴリとして、α、β、γの３種類が設定されている場合を示している。また、ボーナス乗数とは、ストーリーマップに配列されたカテゴリと、選択される画像のカテゴリとの関係に応じて、画像スコアに乗算されるスコアの補正のためのパラメータである。

図５（ｃ）に示す画像選択手法は、図２に示すスコア別最適化の流れに対し、上述のように、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像がより選択され易くなると共に、画像の個別再生時間をストーリーマップのカテゴリに対応する再生時間にクリッピング（ここでは超過分を削除）する補正を加えた画像選択手法となっている。

即ち、図５（ｃ）に示す画像選択手法では、ストーリーマップにおいて、時系列上の注目する位置と、その位置に選択可能な撮影画像群における各画像とで、カテゴリが一致する場合には、ボーナス乗数を乗算することで画像スコアがアップされる。これにより、選択可能な画像のうち、ストーリーマップに配列されたカテゴリと一致する画像が選択され易くなる。また、ストーリーマップに配列されたカテゴリの切り替え時間よりも、選択された画像の個別再生時間の方が長い場合、個別再生時間をクリッピングしてカテゴリに設定された時間に収めることで、ストーリーマップに設定されたカテゴリの時系列に則した画像の構成とすることができる。

例えば、図５（ｃ）において、画像Ｂのカテゴリはβであり、ストーリーマップにおける０〜１秒の時間帯に設定されているカテゴリはβである。そのため、ストーリーマップにおける０〜１秒の時間帯に画像Ｂが選択される場合には、画像Ｂのスコア［５］に対して、ボーナス乗数２が乗算され、スコアが［１０］に補正される。その結果、ストーリーマップにおける０〜１秒の時間帯における画像Ａ（カテゴリはα）のスコア［８］よりも、補正後の画像Ｂのスコア［１０］の方が高くなり、ストーリーマップにおける０〜１秒の時間帯の画像として、画像Ｂが選択される。

また、選択された画像Ｂは、個別再生時間が５秒である一方、ストーリーマップにおける０〜１秒の時間帯のカテゴリは２秒の再生時間が設定されているため、画像Ｂの個別再生時間は２秒にクリッピングされる。
また、図５（ｃ）において、画像Ｃのカテゴリはγであり、ストーリーマップにおける２〜３秒の時間帯に設定されているカテゴリはαである。そのため、ストーリーマップにおける２〜３秒の時間帯に画像Ｃが選択される場合には、画像Ｃのスコア［７］に対して、ボーナス乗数１／２が乗算され、スコアが［３．５］に補正される。一方、画像Ｄのカテゴリはαであり、ストーリーマップにおける２〜３秒の時間帯に設定されているカテゴリはαである。そのため、ストーリーマップにおける２〜３秒の時間帯に画像Ｄが選択される場合には、画像Ｄのスコア［６］に対して、ボーナス乗数２が乗算され、スコアが［１２］に補正される。その結果、ストーリーマップにおける２〜３秒の時間帯における補正後の画像Ｃのスコア［３．５］よりも、補正後の画像Ｄのスコア［１２］の方が高くなり、画像Ｂに続く２〜３秒の時間帯の画像として、画像Ｄが選択される。

そして、ストーリーマップにおける３秒以降の時間帯に選択される画像が、同様にボーナス乗数を乗算されたスコアを基に選択されると共に、必要に応じて、個別再生時間がクリッピングされる。
この結果、本例では各経路のうち、積算スコア［２５．５］となる経路が、積算スコアが最大となる経路となる。この経路は、画像Ｂ（補正後のスコア［１０］）を起点ノードとして、画像Ｄ（補正後のスコア［１２］）と、画像Ｅ（補正後のスコア［３．５］）の組み合わせからなる。即ち、画像Ｂ→画像Ｄ→画像Ｅの経路が最適パスとなる。

したがって、本手法を用いることにより、ストーリーマップを参照して、カテゴリに分類された複数の画像の中から、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を、例えば、時間や枚数等の制約内で積算スコアがなるべく最大となるように選択することができる。このため、ストーリーマップで意図されたストーリー構成に則した適切な動画を生成することができる。

図６は、図１の撮像装置１の機能的構成のうち、ハイライト動画生成処理を実行するための機能的構成を示す機能ブロック図である。

ハイライト動画生成処理とは、複数の候補画像の中から、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像であって、画像スコアの高い組み合わせとなる候補画像からなるハイライト動画を生成する一連の処理をいう。

ハイライト動画生成処理を実行する場合には、図６に示すように、ＣＰＵ１１において、ストーリーマップ取得部５１と、画像取得部５２と、特徴量算出部５３と、スコア算出部５４と、カテゴリ分類部５５と、経路設定部５６と、画像選択部５７と、動画生成部５８と、が機能する。

また、記憶部２０の一領域には、画像記憶部７１が設定される。
画像記憶部７１には、撮影時に取得したセンサ情報と対応付けられた画像のデータが記憶される。
ストーリーマップ取得部５１は、ハイライト動画生成処理において参照されるストーリーマップのデータを取得する。ストーリーマップのデータは、ユーザが生成したものを取得したり、デザイナーによってデザインされた既製のものを取得したりすることができる。

画像取得部５２は、ハイライト動画の対象となる複数の候補画像を画像記憶部７１から取得する。本実施形態において、候補画像のデータには、撮影時に取得したセンサ情報が対応付けられており、画像取得部５２は、候補画像のデータを取得する際に、センサ情報のデータを併せて取得する。
特徴量算出部５３は、取得した候補画像毎に特徴量を算出する。本実施形態において、特徴量算出部５３は、候補画像を画像解析した結果及び候補画像に対応付けられているセンサ情報に基づいて、各候補画像の特徴量を算出する。

スコア算出部５４は、特徴量算出部５３が算出した特徴量に基づいて、画像の価値としての画像スコアを設定する。なお、画像スコアは、人の主観に基づいて特徴量算出に用いた項目に応じて一義的に設定してもよいし、主観的な評価結果を教師データとして機械学習に基づいて特徴量の項目のそれぞれに重み付けをして、重み付けに応じて、総合的に設定してもよい。
カテゴリ分類部５５は、ＤＮＮを用いたディープラーニングを用いて、候補画像を複数のカテゴリに分類する。本実施形態において、カテゴリ分類部５５は、ユーザによって各カテゴリに予め分類された画像を教師データとし、この教師データを用いて、カテゴリの分類器に学習を行わせる。そして、カテゴリ分類部５５は、学習を経た分類器に未分類の画像を入力（例えば、画素データやセンサ情報を要素として入力）することにより、各画像をいずれかのカテゴリに分類する。

経路設定部５６は、画像の撮影順と設定された候補画像の個別再生時間に基づいて、ハイライト動画の個別再生時間と候補画像によって構成されるマトリクスに可能な経路の組み合わせ（配列）を設定する。本実施形態において、経路設定部５６は、画像のカテゴリとストーリーマップに設定されたカテゴリとに基づいて、候補画像のスコアを補正しつつ、経路の組み合わせ（配列）を設定する。

画像選択部５７は、積算スコアが最も高くなる経路を選択して、経路を構成する候補画像を選択する。本実施形態において、画像選択部５７は、図２に示すスコア別最適化の流れに対し、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像がより選択され易くなると共に、画像の個別再生時間をストーリーマップのカテゴリに対応する再生時間にクリッピング（ここでは超過分を削除）する補正を加えた画像選択手法によって、候補画像を選択する。例えば、画像選択部５７は、ストーリーマップにおいて、時系列上の注目する位置と、その位置に選択可能な撮影画像群における各候補画像とで、カテゴリが一致する場合には、ボーナス乗数を乗算することで候補画像のスコアをアップさせる。これにより、選択可能な候補画像のうち、ストーリーマップに配列されたカテゴリと一致する候補画像が選択され易くなる。また、画像選択部５７は、ストーリーマップに配列されたカテゴリの切り替え時間よりも、選択された候補画像の個別再生時間の方が長い場合、個別再生時間をクリッピングしてカテゴリに設定された時間に収めることで、ストーリーマップに設定されたカテゴリの時系列に則した画像の構成とする。
動画生成部５８は、画像選択部５７によって選択された経路の候補画像を設定された最大再生時間に収まるように構成したハイライト動画を生成する。
図７は、生成されたハイライト動画の一例を示す模式図である。
図７に示すように、上述の手法によって候補画像から画像を選択することにより、ストーリーマップに設定されたカテゴリの時系列に則した特徴的な画像によって構成されるハイライト動画が生成される。

［動作］
次に、撮像装置１の動作を説明する。
図８は、図６の機能的構成を有する図１の撮像装置１が実行するハイライト動画生成処理の流れを説明するフローチャートである。
ハイライト動画生成処理は、ユーザによる入力部１８へのハイライト動画生成処理開始の操作により開始される。

ステップＳ１において、ストーリーマップ取得部５１は、ハイライト動画生成処理において参照されるストーリーマップのデータを取得する。
ステップＳ２において、画像取得部５２は、ハイライト動画の対象となる複数の候補画像を画像記憶部７１から取得する。なお、候補画像のデータには、撮影時に取得したセンサ情報が対応付けられており、画像取得部５２は、候補画像のデータを取得する際に、センサ情報のデータを併せて取得する。
ステップＳ３において、特徴量算出部５３は、取得した候補画像毎に特徴量を算出する。このとき、特徴量算出部５３は、候補画像を画像解析した結果及び候補画像に対応付けられているセンサ情報に基づいて、各候補画像の特徴量を算出する。

ステップＳ４において、スコア算出部５４は、特徴量算出部５３が算出した特徴量に基づいて、画像の価値としての画像スコアを設定する。
ステップＳ５において、カテゴリ分類部５５は、ＤＮＮを用いたディープラーニングを用いて、候補画像を複数のカテゴリに分類する。このとき、カテゴリ分類部５５は、ユーザによって各カテゴリに予め分類された画像を教師データとし、この教師データを用いて、カテゴリの分類器に学習を行わせる。そして、カテゴリ分類部５５は、学習を経た分類器に未分類の画像を入力（例えば、画素データやセンサ情報を要素として入力）することにより、各画像をいずれかのカテゴリに分類する。

ステップＳ６において、経路設定部５６は、画像の撮影順と設定された候補画像の個別再生時間に基づいて、ハイライト動画の個別再生時間と候補画像によって構成されるマトリクスに可能な経路の組み合わせ（配列）を設定する。このとき、経路設定部５６は、画像のカテゴリとストーリーマップに設定されたカテゴリとに基づいて、候補画像のスコアを補正しつつ、経路の組み合わせ（配列）を設定する。

ステップＳ７において、画像選択部５７は、積算スコアが最も高くなる経路を選択して、経路を構成する候補画像を選択する。このとき、画像選択部５７は、図２に示すスコア別最適化の流れに対し、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像がより選択され易くなると共に、画像の個別再生時間をストーリーマップのカテゴリに対応する再生時間にクリッピング（ここでは超過分を削除）する補正を加えた画像選択手法によって、候補画像を選択する。例えば、画像選択部５７は、ストーリーマップにおいて、時系列上の注目する位置と、その位置に選択可能な撮影画像群における各候補画像とで、カテゴリが一致する場合には、ボーナス乗数を乗算することで候補画像スコアをアップさせる。また、画像選択部５７は、ストーリーマップに配列されたカテゴリの切り替え時間よりも、選択された候補画像の個別再生時間の方が長い場合、個別再生時間をクリッピングしてカテゴリに設定された時間に収めることで、ストーリーマップに設定されたカテゴリの時系列に則した画像の構成とする。

ステップＳ８において、動画生成部５８は、画像選択部５７によって選択された経路の候補画像を設定された最大再生時間に収まるように構成したハイライト動画を生成する。
ステップＳ８の後、ハイライト動画生成処理は終了する。
このような処理により、ストーリーマップに配列された各カテゴリに対して、撮影画像群における各候補画像のうち、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する候補画像が選択される。このとき、選択された候補画像の個別再生時間がカテゴリに設定された再生時間よりも長い場合には、候補画像の個別再生時間がストーリーマップのカテゴリに対応する再生時間にクリッピングされる。

これにより、ストーリーマップを参照して、カテゴリに分類された複数の画像の中から、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を、例えば、時間や枚数等の制約内で積算スコアがなるべく最大となるように選択することができる。このため、ストーリーマップで意図されたストーリー構成に則した適切な動画を生成することができる。
したがって、撮像装置１によれば、ユーザにとって趣向性の高い集約画像を提供することができる。

［変形例１］
上述の実施形態において、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する候補画像を選択する場合、ＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）を用いた動的計画法に基づく経路設定を行うことで、最適な画像を選択することとしてもよい。
即ち、候補画像群とストーリーマップとは、時間の長さ及びサンプルの数が異なる２つの関数として捉えることができる。
そして、ＤＴＷによって、候補画像群及びストーリーマップの各サンプル（候補画像群の各候補画像とストーリーマップに配列されている各カテゴリ）間の距離を全て算出し、これらの距離を表すマトリクスにおいて、候補画像群とストーリーマップとの距離が最短となるパスを特定する。このとき、候補画像群及びストーリーマップの各サンプル間の距離は、カテゴリ間距離として定義することができる。カテゴリ間距離は、例えば、図５（ａ）に示すカテゴリα、β、γにおいては、同一のカテゴリ間では距離をゼロとし、カテゴリαとβとでは距離を「５」、カテゴリαとγとでは距離を「１０」、カテゴリβとγとでは距離を「１０」とすることができる。

このように特定されたパスを構成する候補画像の組み合わせが、ストーリーマップに最も適合（フィッティング）する候補画像となり、これらの候補画像を時系列に配列することで、ストーリーマップに配列された各カテゴリに具体的な候補画像が設定されたハイライト動画を生成することができる。

［変形例２］
上述の実施形態において、動画である候補画像を含む候補画像群を要約したハイライト動画を生成する場合を例に挙げて説明したが、これに限られない。
例えば、静止画像である候補画像からなる候補画像群から特徴的なものを集めた集約画像（コラージュ画像、スライドショーあるいはハイライト動画等）を生成する場合にも本発明を適用することができる。
一例として、複数の静止画像からハイライト動画を生成する場合、静止画像からなる候補画像群をカテゴリに分類し、ハイライト動画における時系列のカテゴリの配列（ストーリーマップ）を用意する。そして、このストーリーマップを参照して、カテゴリに分類された複数の画像の中から、ストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を選択して合成する。このとき、静止画像である候補画像の個別再生時間は、ストーリーマップにおいて各カテゴリの画像毎に設定された再生時間とされる。なお、画像の選択には、図５に示す選択手法や、変形例１に示す選択手法のいずれを用いることも可能である。
これにより、静止画像である候補画像からなる候補画像群から特徴的なものを集めた集約画像を生成することができる。
したがって、ユーザにとって趣向性の高い集約画像を提供することができる。

［変形例３］
上述の実施形態において、候補画像群からストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を選択する場合、ストーリーマップを候補画像群の長さに伸長し、伸長されたストーリーマップに配列された各カテゴリの時間帯において、同一のカテゴリの候補画像を選択することで、集約画像を生成することとしてもよい。
このとき、伸長されたストーリーマップに配列された各カテゴリの時間帯において、同一のカテゴリの候補画像を複数選択可能である場合には、画像スコアがより高い候補画像を選択することができる。
このような手法により、簡単な処理によって、候補画像群から特徴的なものを集めた集約画像を生成することができる。

［変形例４］
上述の実施形態において、候補画像群からストーリーマップの時間軸上の位置及びカテゴリに適合（フィッティング）する画像を選択する場合に、予め個別の画像スコアを算出することなく、ストーリーマップに沿って選択されるべきカテゴリの画像から、ボーナス乗数と時間軸上の位置とによって候補画像を選択するように構成してもよい。
このような手法により、簡単な処理によって、候補画像群から特徴的なものを集めた集約画像を生成することができる。

［変形例５］
上述の実施形態において、候補画像群からストーリーマップの時系列に沿ってボーナス乗数を考慮した画像スコアを算出するように構成したが、候補画像群を各カテゴリに分類した後、各カテゴリにおいて画像スコアの高い順にストーリーマップに必要な数だけの画像を選択して集約画像を生成するように構成してもよい。
また、上記の手法で選択した候補画像から集約画像を生成する際に、各画像の撮影タイミングの情報を読み出して、ストーリーマップに収まるような配列で集約画像を生成するように構成してもよい。
このような手法により、簡単な処理によって、候補画像群から特徴的なものを集めた集約画像を生成できる。

［変形例６］
上述の実施形態において、候補画像群からストーリーマップの時系列に沿ってボーナス乗数を考慮した画像スコアを算出するように構成したが、候補画像群を各カテゴリに分類した後、各カテゴリからランダムにストーリーマップに必要な数だけの画像を選択して集約画像を生成するように構成してもよい。
このような手法により、画像の選択処理を簡略化することができ、且つ候補画像群から特徴的なものを集めた集約画像を生成できる。

以上のように構成される撮像装置１は、画像取得部５２と、画像選択部５７と、動画生成部５８とを備える。
画像取得部５２は、複数の画像を取得する。
画像選択部５７は、複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択する。
動画生成部５８は、選択された画像を１つの画像に合成する。
これにより、複数の画像における画像の分類を考慮しつつ、画像の評価結果に基づいて、画像を選択して１つの画像に合成することができる。
したがって、ユーザにとって趣向性の高い集約画像を提供することができる。

画像選択部５７は、ストーリーマップにおける注目する位置の画像を選択する際、当該位置の分類と画像の分類とが一致する場合、当該画像の評価を高める補正を行う。
これにより、ストーリーマップにおける注目する位置の分類と一致する画像を選択され易くすることができる。

複数の画像には、動画が含まれる。
ストーリーマップは、画像の分類の時間的な位置及び長さの配列を表す。
画像選択部５７は、ストーリーマップにおける注目する位置の画像を選択する際、当該位置の時間的な長さよりも画像の再生時間が長い場合、当該画像の再生時間をクリッピングする。
これにより、選択される画像の再生時間をストーリーマップに設定された再生時間に収めることができ、ストーリーマップに設定された分類の時系列に則した画像の構成とすることができる。

撮像装置１は、カテゴリ分類部５５を備える。
カテゴリ分類部５５は、画像取得部５２により取得された複数の画像を、画像の内容に基づいて複数の画像群に分類する。
これにより、複数の画像を分類することができ、画像の分類を考慮して画像を選択することが可能となる。

撮像装置１は、スコア算出部５４を備える。
スコア算出部５４は、画像取得部５２により取得された複数の画像を評価する。
これにより、画像の評価を反映させて、画像を選択することが可能となる。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、ストーリーマップは、ハイライト動画（集約画像）における時系列のカテゴリの配列を定義したものとして説明した。即ち、ストーリーマップには、選択される候補画像の時間軸上の位置及びカテゴリが定義されているものとして説明した。
これに対し、ストーリーマップには、選択される候補画像の空間上の位置及びカテゴリが定義されるものとしてもよい。この場合、ストーリーマップは、平面的な画像（静止画像）における候補画像の配置位置と、各位置に配置される候補画像のカテゴリとが定義されたものとなる。

上述の実施形態では、動画または静止画像である候補画像から画像を選択してハイライト動画（集約画像）を生成するように構成したが、例えば、１つまたは複数の動画において、動画を構成するフレーム画像を候補画像としてもよい。
また、静止画、動画あるいはフレーム画像のうちの複数種類を候補画像とし、これら種類の異なる候補画像から画像を選択して集約画像を生成することとしてもよい。

また、上述の実施形態では、本発明が適用される撮像装置１は、デジタルカメラを例として説明したが、特にこれに限定されない。
例えば、本発明は、ハイライト動画生成処理機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、プリンタ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、スマートフォン、ポータブルゲーム機等に適用可能である。

上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図６の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が撮像装置１に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図６の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
本実施形態における機能的構成は、演算処理を実行するプロセッサによって実現され、本実施形態に用いることが可能なプロセッサには、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものの他、これら各種処理装置と、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ‐ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の処理回路とが組み合わせられたものを含む。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであってもよい。

このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図１のリムーバブルメディア３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ），Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ（ブルーレイディスク）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図１のＲＯＭ１２や、図１の記憶部２０に含まれるハードディスク等で構成される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
複数の画像を取得する取得手段と、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成手段と、
を備えることを特徴とする画像処理装置。
［付記２］
前記合成手段は、前記画像の分類の時間的または空間的な位置の配列を表すストーリーマップに基づいて、前記複数の画像群の少なくともいずれかから画像を選択することを特徴とする付記１に記載の画像処理装置。
［付記３］
前記合成手段は、前記ストーリーマップにおける注目する位置の画像を選択する際、当該位置の分類と前記画像の分類とが一致する場合、当該画像の評価を高める補正を行うことを特徴とする付記２に記載の画像処理装置。
［付記４］
前記複数の画像には、動画が含まれ、
前記ストーリーマップは、前記画像の分類の時間的な位置及び長さの配列を表し、
前記合成手段は、前記ストーリーマップにおける注目する位置の画像を選択する際、当該位置の時間的な長さよりも前記画像の再生時間が長い場合、当該画像の再生時間をクリッピングすることを特徴とする付記２または３に記載の画像処理装置。
［付記５］
前記取得手段により取得された前記複数の画像を、前記画像の内容に基づいて前記複数の画像群に分類する分類手段を備えることを特徴とする付記１から４のいずれか１つに記載の画像処理装置。
［付記６］
前記取得手段により取得された前記複数の画像を評価する評価手段を備えることを特徴とする付記１から５のいずれか１つに記載の画像処理装置。
［付記７］
画像処理装置が実行する画像処理方法であって、
複数の画像を取得する取得ステップと、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成ステップと、
を含むことを特徴とする画像処理方法。
［付記８］
コンピュータに、
複数の画像を取得する取得機能と、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成機能と、
を実現させることを特徴とするプログラム。

１・・・撮像装置，１１・・・ＣＰＵ，１２・・・ＲＯＭ，１３・・・ＲＡＭ，１４・・・バス，１５・・・入出力インターフェース，１６・・・撮像部，１７・・・センサ部，１８・・・入力部，１９・・・出力部，２０・・・記憶部，２１・・・通信部，２２・・・ドライブ，３１・・・リムーバブルメディア，５１・・・ストーリーマップ取得部，５２・・・画像取得部，５３・・・特徴量算出部，５４・・・スコア算出部，５５・・・カテゴリ分類部，５６・・・経路設定部，５７・・・画像選択部，５８・・・動画生成部，７１・・・画像記憶部

Claims

複数の画像を取得する取得手段と、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成手段と、
を備えることを特徴とする画像処理装置。
前記合成手段は、前記画像の分類の時間的または空間的な位置の配列を表すストーリーマップに基づいて、前記複数の画像群の少なくともいずれかから画像を選択することを特徴とする請求項１に記載の画像処理装置。
前記合成手段は、前記ストーリーマップにおける注目する位置の画像を選択する際、当該位置の分類と前記画像の分類とが一致する場合、当該画像の評価を高める補正を行うことを特徴とする請求項２に記載の画像処理装置。
前記複数の画像には、動画が含まれ、
前記ストーリーマップは、前記画像の分類の時間的な位置及び長さの配列を表し、
前記合成手段は、前記ストーリーマップにおける注目する位置の画像を選択する際、当該位置の時間的な長さよりも前記画像の再生時間が長い場合、当該画像の再生時間をクリッピングすることを特徴とする請求項２または３に記載の画像処理装置。
前記取得手段により取得された前記複数の画像を、前記画像の内容に基づいて前記複数の画像群に分類する分類手段を備えることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
前記取得手段により取得された前記複数の画像を評価する評価手段を備えることを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
複数の画像を取得する取得ステップと、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成ステップと、
を含むことを特徴とする画像処理方法。
コンピュータに、
複数の画像を取得する取得機能と、
前記複数の画像において、前記画像の内容に基づく分類に応じた複数の画像群から、前記複数の画像が評価された評価結果に基づいて画像を選択して、１つの画像に合成する合成機能と、
を実現させることを特徴とするプログラム。