JP6841181B2

JP6841181B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP6841181B2
Application number: JP2017141387A
Authority: JP
Inventors: 田中　邦彦; 邦彦田中
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2021-03-10
Anticipated expiration: 2037-07-20
Also published as: JP2019021225A

Description

本発明は、動画像データから静止画像データを抽出する画像処理技術に関する。

近年、ビデオカメラやスマートフォンの性能向上や画質向上に伴い、動画像データから抽出可能な静止画像データを生成することが行われるようになってきた。このような状況を踏まえて、動画像データから所望の静止画を抽出してアルバムなどを作成可能とする技術も提案されている。たとえば特許文献１は、動画データのフレーム画像に含まれる特徴量の変化特性から動画データの撮影状況の変化が把握されて、この変化を示すフレーム画像を選択して表示する技術を提案している。

特開２００７−８２２４０号公報

しかし、動画像データから抽出された静止画像を印刷する際のユーザー負担の軽減については十分な検討がなされていなかった。具体的には、動画像データから静止画像データを抽出した後において、多数の静止画像の中から所望の静止画像を選択するためには、各静止画像の大きさを小さくして一覧表示を行いたいという要請がある。一方、各静止画像の大きさを小さくすると、各静止画像の特徴的な画像領域（たとえば顔画像）が小さくなってしまい、静止画像の選択が困難になるというトレードオフの問題が発生していた。

本発明は、このような状況に鑑みてなされたものであり、動画像データから抽出された複数の静止画像データから所望の静止画像データを選択するための負担を軽減させる技術を提供することを目的とする。

本発明の画像処理装置は、動画像データから複数の静止画像データを生成する静止画像データ生成部と、前記静止画像データの特徴的な領域の特徴量を計算し、前記特徴量に基づいて前記静止画像データを抽出する静止画像データ抽出部と、前記特徴的な領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御部とを備える。

本発明の画像形成装置は、前記画像処理装置と、印刷媒体に画像を形成する画像形成部とを備える。

本発明の画像処理方法は、動画像データから複数の静止画像データを生成する静止画像データ生成工程と、前記静止画像データの特徴的な領域の特徴量を計算し、前記特徴量に基づいて前記静止画像データを抽出する静止画像データ抽出工程と、前記特徴的な領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御工程とを備える。

本発明の画像処理プログラムは、動画像データから複数の静止画像データを生成する静止画像データ生成部、前記静止画像データの特徴的な領域の特徴量を計算し、前記特徴量に基づいて前記静止画像データを抽出する静止画像データ抽出部、及び前記特徴的な領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御部として画像処理装置を機能させる。

本発明によれば、動画像データから抽出された複数の静止画像データから所望の静止画像データを選択するための負担を軽減させる。

本発明の第１実施形態に係る画像形成装置１００の機能構成を示すブロックダイアグラムである。第１実施形態に係る静止画像取得処理の内容を示すフローチャートである。第１実施形態に係るフレーム画像データ生成処理の内容を示すデータフローダイアグラムである。第１実施形態に係るフレーム画像抽出処理の概要を示す説明図である。第１実施形態に係るフレーム画像抽出処理の内容を示すフローチャートである。第２実施形態に係る静止画像取得処理の内容を示すフローチャートである。第２実施形態に係るフレーム画像抽出処理の内容を示すフローチャートである。第２実施形態に係るフレーム画像抽出処理の概要を示す説明図である。第３実施形態に係る静止画像取得処理の内容を示すフローチャートである。第３実施形態に係る人物登録処理の内容を示すフローチャートである。第３実施形態に係る特徴量計算処理の内容を示すフローチャートである。第４実施形態に係る静止画像取得処理の内容を示すフローチャートである。第４実施形態に係る印刷出力処理の内容を示すフローチャートである。第４実施形態に係る印刷対象画像選択処理の内容を示すフローチャートである。第４実施形態に係る印刷対象画像選択処理における操作表示画面を示す説明図である。第４実施形態に係る印刷レイアウト設定処理の内容を示すフローチャートである。第４実施形態に係る印刷レイアウト設定処理における操作表示画面を示す説明図である。第４実施形態に係る印刷レイアウト設定処理の一例を示す説明図である。第４実施形態に係る印刷レイアウト設定処理の他の例を示す説明図である。

以下、本発明を実施するための形態（以下、「実施形態」という）を、図面を参照して以下の順序で説明する。
Ａ．第１実施形態：
Ｂ．第２実施形態：
Ｃ．第３実施形態：
Ｄ．第４実施形態：
Ｅ．変形例：

Ａ．第１実施形態：
図１は、本発明の第１実施形態に係る画像形成装置１００の機能構成を示すブロックダイアグラムである。画像形成装置１００は、制御部１１０と、画像形成部１２０と、操作表示部１３０と、記憶部１４０と、通信インターフェース部１５０（通信Ｉ／Ｆ部とも呼ばれる。）とを備えている。画像形成装置１００は、通信インターフェース部１５０を介して近距離無線通信でスマートフォン２００と接続される。これにより、画像形成装置１００は、スマートフォン２００で撮像して生成された動画像データを受信することができる。

近距離無線通信は、本実施形態では、ＢＬＵＥＴＯＯＴＨ（登録商標）のＣＬＡＳＳ２を使用している。ＢＬＵＥＴＯＯＴＨ（登録商標）のＣＬＡＳＳ２は、出力２．５ｍＷの通信であり、画像形成装置１００とスマートフォン２００との距離が１０ｍ以内程度での通信が可能な近距離無線通信である。

制御部１１０は、ＲＡＭやＲＯＭ等の主記憶手段、及びＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の制御手段を備えている。また、制御部１１０は、各種Ｉ／Ｏ、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、バス、その他ハードウェア等のインターフェースに関連するコントローラー機能を備えている。制御部１１０は、画像形成装置１００の全体を制御する。

制御部１１０は、フレーム画像生成部１１１と、特徴量演算部１１２と、フレーム画像抽出部１１３と、フレームメモリ１１４と、周期設定部１１５とを備えている。画像形成部１２０は、印刷媒体上に画像を形成する。

操作表示部１３０は、ディスプレイ１３１と、操作処理部１３２とを備えている。ディスプレイ１３１は、タッチパネルとして機能し、様々なメニューを入力画面として表示する。操作処理部１３２は、スタートボタンを含み、ユーザーの操作入力を受け付ける。

記憶部１４０は、非一時的な記録媒体であるハードディスクドライブやフラッシュメモリー等からなる記憶装置で、それぞれ制御部１１０が実行する処理の制御プログラムやデータを記憶する。記憶部１４０は、さらに、フレーム画像データを格納するための静止画像格納領域１４１と、人物の顔検出のための顔画像データ（登録顔画像データとも呼ばれる。）が登録されている人物登録データ格納領域１４２とを有している。人物登録データ格納領域１４２には、一般的な顔の検出に応じてフレーム画像データを抽出するための閾値を表すデータも格納されている。

図２は、第１実施形態に係る静止画像取得処理の内容を示すフローチャートである。ステップＳ１０では、ユーザーは、操作表示部１３０を使用して特徴選択処理を実行する。特徴選択処理では、ユーザーは、動画像データから静止画像データを抽出する際の条件として抽出対象となる静止画像で検出されるべき特徴量の種類を選択することができる。

特徴量の種類には、顔検出のための特徴量や特定の人物を検出するための特徴量といった種類がある。顔検出のための特徴量は、単に人間の顔が大きく表示されていること等を定量的に表すことができる。特定の人物を検出するための特徴量は、他の人物から特定の人物を識別して、特定の人間の顔が大きく表示されていること等を定量的に表すことができる。特定の人物を検出するための特徴量の登録方法については、第３実施形態で詳しく説明する。

この際、周期設定部１１５は、フレーム画像の時間的なサンプリング間隔であるサンプリング周期の設定である周期設定入力を受け付ける操作表示画面（図示せず）を操作表示部１３０に表示させる。これにより、ユーザーは、サンプリング周期を設定することができる。

ステップＳ２０では、制御部１１０のフレーム画像生成部１１１は、静止画像データ生成部として機能し、フレーム画像データ生成処理を実行する。フレーム画像データ生成処理では、フレーム画像生成部１１１は、たとえば３０ｆｐｓのフレームレートの動画像データＭＤからフレーム画像データを生成する。

図３は、第１実施形態に係るフレーム画像データ生成処理の内容を示すデータフローダイアグラムである。図３には、上側にデータフローダイアグラムが示され、下側にＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）が示されている。データフローダイアグラムは、動画像データＭＤからのフレーム画像データの流れを示している。フレーム画像データは、ＹＵＶ画像データとして構成されている。フレーム画像データ生成処理は、動画像データＭＤから複数のフレーム画像データを抽出する処理であり、フレーム画像生成部１１１によって実行される。

フレーム画像データ生成処理には、たとえばＭＰＥＧ−４（ＩＳＯ／ＩＥＣ１４４９６）やＨ．２６４に規定される処理が含まれる。フレーム画像データ生成処理では、フレーム画像生成部１１１は、Ｉフレーム（Ｉｎｔｒａ−ｃｏｄｅｄＦｒａｍｅ）、Ｐフレーム（ＰｒｅｄｉｃｔｅｄＦｒａｍｅ）及びＢフレーム（Ｂｉ−ｄｉｒｅｃｔｉｏｎａｌＰｒｅｄｉｃｔｅｄＦｒａｍｅ）からフレーム画像データを生成する。

Ｉフレームとは、フレーム間予測を用いずに符号化されるフレームである。Ｉフレームとは、イントラフレームやキーフレームとも呼ばれる。Ｉフレームは、Ｐフレーム（ＰｒｅｄｉｃｔｅｄＦｒａｍｅ）やＢフレーム（Ｂｉ−ｄｉｒｅｃｔｉｏｎａｌＰｒｅｄｉｃｔｅｄＦｒａｍｅ）とともにＧＯＰを構成する。Ｐフレームは、ＩフレームやＰフレームとのフレーム間処理によってフレーム画像データの生成を可能とする。Ｂフレームは、Ｉフレーム、Ｐフレーム及び他のＢフレームとの前後のフレーム間処理によってフレーム画像データの生成を可能とする。

動画像データは、時系列順に配列されている複数のフレーム画像データから生成される。複数のフレーム画像データは、時系列の前後のフレーム間で近似していることが多い。フレーム間予測とは、このような動画像データの性質を利用して、時系列的に前のフレーム画像から現在のフレーム画像を予測する技術である。

具体的には、画素ブロック毎の移動を推定し、移動後のフレーム間での画素ブロックの差分をＤＣＴ変換・量子化してＧＯＰ単位での圧縮率を高める技術である。Ｐフレームは、動きベクトルを使用してＩフレームから再現することができる。動きベクトルは、各画素ブロックの移動ベクトルである。

フレーム画像生成部１１１は、Ｉフレームに対して逆離散コサイン変換（逆ＤＣＴ変換とも呼ばれる。）を行うことによって、輝度データと色差データとを含むＹＵＶ画像データとしてのフレーム画像データを生成する。逆ＤＣＴ変換は、たとえば８×８画素あるいは１６×１６の画素ブロック毎に実行される。フレーム画像生成部１１１は、再現されたフレーム画像データを制御部１１０のフレームメモリ１１４に格納する。

フレーム画像生成部１１１は、Ｐフレーム及びＢフレームに対して逆離散コサイン変換を行うことによって差分データを生成する。フレーム画像生成部１１１は、差分データと動きベクトルとを使用してフレーム間処理を実行してフレーム画像データを生成する。動きベクトルは、動画像データＭＤのエンコード時に生成されたデータである。本処理は、ＭＰＥＧ−４やＨ．２６４に規定される通常の復号化処理である。

フレーム画像生成部１１１は、ＰフレームやＢフレームに基づくフレーム画像データ生成処理を実行し、全てのフレーム画像データをフレームメモリ１１４に格納する。フレーム画像データをフレームメモリ１１４に格納する際には、フレーム画像生成部１１１は、フレーム画像データの時系列的な順序を表す番号を各フレーム画像データに紐づけて格納する。

図４は、第１実施形態に係るフレーム画像抽出処理の概要を示す説明図である。図４には、第１フレーム画像群ＦＧ１と、第２フレーム画像群ＦＧ２と、第３フレーム画像群ＦＧ３とが示されている。第１フレーム画像群ＦＧ１は、処理対象としての８０個のフレーム画像データＦ１〜Ｆ８０を示している。第２フレーム画像群ＦＧ２は、サンプリング処理中のフレーム画像データＦ１〜Ｆ８０を示している。第３フレーム画像群ＦＧ３は、フレーム画像抽出処理完了後のフレーム画像データＦ１〜Ｆ８０を示している。

ステップＳ３０では、フレーム画像生成部１１１は、サンプリング処理を実行する。本実施形態では、特徴量演算部１１２は、ユーザーの選択に基づいて、８フレーム間隔のサンプリング周期（３０ｆｐｓの場合で０．２７秒）でサンプリング対象フレームを決定するものとする。この例では、サンプリング対象フレームは、第１フレーム画像群ＦＧ１において菱形の記号で表されている８個のフレーム画像データＦ９，Ｆ１８，Ｆ２７，Ｆ３６，Ｆ４５，Ｆ５４，Ｆ６３，Ｆ７２となる。サンプリング対象フレームの画像データは、サンプリング対象静止画像データとも呼ばれる。

ステップＳ４０では、制御部１１０の特徴量演算部１１２は、特徴量計算処理を実行する。特徴量計算処理では、特徴量演算部１１２は、選択された特徴量の種類に基づいて特徴量を計算する。特徴量演算部１１２は、たとえば周知のＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ）を使用して人物の検出や特定を実行することができる。サンプリング対象静止画像データの特徴量は、第１の特徴量とも呼ばれる。

具体的には、特徴量演算部１１２は、人物登録データ格納領域１４２に登録されている登録顔画像データと、たとえばＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴やＨａａｒ−Ｌｉｋｅ特徴とに基づいて特定の人物の特徴を定量的に表している特徴量を計算する。特徴量の計算では、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などの機械学習を利用することができる。

ステップＳ５０では、フレーム画像抽出部１１３は、閾値設定処理を実行する。閾値設定処理では、フレーム画像抽出部１１３は、人物登録データ格納領域１４２から顔の検出に応じてフレーム画像データを抽出するための閾値を表すデータを読み出し、そのデータを使用して閾値を決定する。閾値は、機械学習によって自動的に計算され、人物登録データ格納領域１４２に格納される。

図５は、第１実施形態に係るフレーム画像抽出処理（ステップＳ６０）の内容を示すフローチャートである（図３参照）。ステップＳ６１では、フレーム画像抽出部１１３は、各サンプリング対象フレームが抽出対象であるか否かを判断する。フレーム画像抽出部１１３は、各サンプリング対象フレームの特徴量が閾値以上であるか否かに基づいて抽出対象であるか否を判断する。閾値は、人物登録データ格納領域１４２から読み出された値である。

フレーム画像抽出部１１３は、サンプリング対象フレームが抽出対象である場合には、処理をステップＳ６２に進める。この例では、特徴量が閾値以上のサンプリング対象フレームは、第１フレーム画像群ＦＧ１において、３個のフレーム画像データＦ１８，Ｆ４５，Ｆ５４となる。サンプリング対象フレーム（サンプリング対象静止画像データ）は、抽出対象である場合には、第１の抽出対象静止画像データとも呼ばれる。

ステップＳ６２では、特徴量演算部１１２は、抽出候補フレーム画像データとして、特徴量が閾値以上のサンプリング対象フレームから予め設定された範囲内（この例では後側の８個）のフレーム画像データ（隣接静止画像データとも呼ばれる。）を選択する（第２フレーム画像群ＦＧ２参照）。特徴量が閾値以上のサンプリング対象フレームＦ１８，Ｆ４５，Ｆ５４は、抽出対象サンプリング対象フレームとも呼ばれる。

具体的には、特徴量演算部１１２は、たとえばサンプリング対象フレームＦ１８については、その後側の８個のフレーム画像データＦ１９〜Ｆ２６を選択する。さらに、特徴量演算部１１２は、サンプリング対象フレームＦ４５については、その後側の８個のフレーム画像データＦ４６〜Ｆ５３を選択し、サンプリング対象フレームＦ５４については、その後側の８個のフレーム画像データＦ５５〜Ｆ６２を選択する。

ステップＳ６３では、特徴量演算部１１２は、抽出対象サンプリング対象フレームの直前のサンプリング対象フレームが抽出対象サンプリング対象フレームであるか否かを判断する。特徴量演算部１１２は、直前のサンプリング対象フレームが抽出対象サンプリング対象フレームである場合には、処理をステップＳ６５に進め、直前のサンプリング対象フレームが抽出対象サンプリング対象フレームでない場合には、処理をステップＳ６４に進める。

具体的には、特徴量演算部１１２は、サンプリング対象フレームＦ１８については、その直前のサンプリング対象フレームＦ９が抽出対象サンプリング対象フレームでないので、処理をステップＳ６４に進める。この点は、サンプリング対象フレームＦ４５についても同様である。一方、特徴量演算部１１２は、サンプリング対象フレームＦ５４については、その直前のサンプリング対象フレームＦ４５が抽出対象サンプリング対象フレームなので、処理をステップＳ６５に進める。

ステップＳ６４では、特徴量演算部１１２は、抽出候補フレーム画像データとして、抽出対象サンプリング対象フレームから予め設定された範囲内（この例では前側の８個）のフレーム画像データ（隣接静止画像データとも呼ばれる。）を選択する。具体的には、サンプリング対象フレームＦ１８については、８個のフレーム画像データＦ１０〜Ｆ１７が抽出候補フレーム画像データとして選択され、サンプリング対象フレームＦ４５については、８個のサンプリング対象フレームＦ３７〜Ｆ４４が抽出候補フレーム画像データとして選択される。

一方、抽出対象サンプリング対象フレームＦ５４については、その前側のフレーム画像データＦ４６〜Ｆ５３が選択されない。フレーム画像データＦ４６〜Ｆ５３は、既に抽出対象サンプリング対象フレームＦ４５の後側の８個のフレーム画像データとして選択済みだからである。

なお、予め設定された範囲は、第１の抽出対象静止画像データ（たとえばサンプリング対象フレームＦ５４）の直前のサンプリング対象静止画像データ（たとえばサンプリング対象フレームＦ４５）と、第１の抽出対象静止画像データの直後のサンプリング対象静止画像データ（たとえばサンプリング対象フレームＦ６３）との間において設定することができる。

このように、特徴量演算部１１２は、フレーム画像データＦ１０〜Ｆ１７，Ｆ１９〜Ｆ２６，Ｆ３７〜Ｆ４４，Ｆ４６〜Ｆ５３及びＦ５５〜Ｆ６２を抽出候補フレーム画像データとして選択する。すなわち、特徴量演算部１１２は、所定のフレーム間隔でサンプリング対象フレームを設定して特徴量を計算することによって、多数のフレーム画像データのうちの抽出対象である可能性が高い一部のフレーム画像データに限定して特徴量（第２の特徴量とも呼ばれる。）の計算を行うことができる。

本方法は、本願発明者による以下のような知見に基づいて創作されたものである。すなわち、動画の各フレーム画像に含まれる特徴的な部分は、局所的なフレーム（極短時間に相当するフレーム画像）にのみ現れるということは少ない。例えば、人物の顔を特徴として特徴量を計算する場合には、動画中の数フレーム画像のみから顔が検出されることはなく、ある程度連続したフレーム（たとえば数十フレーム）に撮影されていると考えられる。

本願発明者は、このような動画像の性質を考慮して、特徴量の計算対象となる被写体が撮影されている一連のシーンをサンプリング対象フレームで検出し、そのシーンを構成するフレーム画像データ（サンプリング対象フレームの近傍のフレーム）についてのみ特徴量の計算を行う方法を創作した。これにより、本願発明者は、動画像データから静止画像データを抽出する処理における特徴量の計算精度と処理負担のトレードオフの問題を解決する方法を実現した。

ステップＳ６５では、特徴量演算部１１２は、特徴量計算処理を実行する。この例では、特徴量計算処理の内容は、ステップＳ４０の特徴量計算処理と同一である。すなわち、この例では、第２の特徴量は、第１の特徴量と同一であるが、相互に相違する特徴量とすることもできる。

ステップＳ６６では、フレーム画像抽出部１１３は、静止画像データ抽出部として機能し、抽出対象選別処理を実行する。抽出対象選別処理では、フレーム画像抽出部１１３は、ステップＳ６１の処理と同様の処理を実行し、各抽出候補フレーム画像データの特徴量が閾値以上であるか否かを判断し、特徴量が閾値以上である抽出候補フレーム画像データを選別する。

この例では、フレーム画像抽出部１１３は、第３フレーム画像群ＦＧ３に示されるように、も含めてフレーム画像データＦ１２〜Ｆ１７，Ｆ１９〜Ｆ２１，Ｆ４０〜Ｆ４４，Ｆ４６〜Ｆ４７，Ｆ５０〜Ｆ５３，Ｆ５５〜Ｆ６１を第２の抽出対象静止画像データとして選別する。第２の抽出対象静止画像データは、抽出対象サンプリング対象フレーム（第１の抽出対象静止画像データとも呼ばれる。）とともに抽出対象フレーム画像データを構成する。

ステップＳ６７では、フレーム画像抽出部１１３は、抽出対象フラグ処理を実行する。抽出対象フラグ処理では、フレーム画像抽出部１１３は、抽出対象フレーム画像データに抽出対象であることを示すフラグを設定する。

ステップＳ６８では、フレーム画像抽出部１１３は、グループ化処理を実行する。グループ化処理では、フレーム画像抽出部１１３は、抽出対象サンプリング対象フレームを中心として、フラグが設定されている複数の抽出対象フレーム画像データをグループ化する（図３参照）。

具体的には、フレーム画像抽出部１１３は、抽出対象サンプリング対象フレームＦ１８を中心として第１フレーム画像データ群ＦＥ１のグループを生成する（第３フレーム画像群ＦＧ３参照）。第１フレーム画像データ群ＦＥ１には、時系列的に連続している１０個の抽出対象フレーム画像データＦ１２〜Ｆ２１が含まれる。

さらに、フレーム画像抽出部１１３は、抽出対象サンプリング対象フレームＦ４５，Ｆ５４を中心として、それぞれ第２フレーム画像データ群ＦＥ２と第３フレーム画像データ群ＦＥ３の各グループを生成する。第２フレーム画像データ群ＦＥ２には、時系列的に連続している８個の抽出対象フレーム画像データＦ４０〜Ｆ４７が含まれる。第３フレーム画像データ群ＦＥ３には、時系列的に連続している１２個の抽出対象フレーム画像データＦ５０〜Ｆ６１が含まれる。

なお、この例では、２つのフレーム画像データＦ４７，Ｆ５０の間のフレーム画像データＦ４８，Ｆ４９が抽出対象フレーム画像データとして選別されていないので、第２フレーム画像データ群ＦＥ２と第３フレーム画像データ群ＦＥ３とにグループ化されている。しかしながら、仮にフレーム画像データＦ４８，Ｆ４９が抽出対象フレーム画像データとして選別されていた場合には、第３フレーム画像データ群ＦＥ３は、第２フレーム画像データ群ＦＥ２に併合された状態でグループ化されることになる。

制御部１１０は、最終フレーム画像データまでステップＳ２０乃至ステップＳ６０の処理を繰り返して実行する（ステップＳ７０）。

ステップＳ８０では、制御部１１０は、フレーム画像データ出力処理を実行する。フレーム画像データ出力処理では、制御部１１０は、第１フレーム画像データ群ＦＥ１、第２フレーム画像データ群ＦＥ２及び第３フレーム画像データ群ＦＥ３を記憶部１４０の静止画像格納領域１４１に格納する。

これにより、第１フレーム画像データ群ＦＥ１、第２フレーム画像データ群ＦＥ２及び第３フレーム画像データ群ＦＥ３は、３つの連続画像データファイルとして管理され、グループ毎に取り扱うことができる。静止画像格納領域１４１には、第１フレーム画像データ群ＦＥ１、第２フレーム画像データ群ＦＥ２及び第３フレーム画像データ群ＦＥ３の抽出対象フレーム画像データが、それぞれＤＣＴ変換されてＪＰＥＧ静画像データとして格納される（図３参照）。

このように、第１実施形態に係る画像形成装置１００によれば、特徴量の計算対象となる被写体が撮影されている一連のシーンをサンプリング対象フレームで検出し、そのシーンを構成するフレーム画像データについてのみ特徴量の計算を行うことができる。これにより、動画像データから静止画像データを抽出する処理における特徴量の計算精度と処理負担のトレードオフの問題を解決することができる。

第１実施形態では、全フレームについてフレーム画像データを生成し、その中から所定の周期でサンプリングしているが、このような方法に限定されない。具体的には、たとえばサンプリング対象フレームの検出の際には、サンプリング対象フレームだけを動画像データから生成するようにしてもよい。

具体的には、サンプリング対象フレームがＩフレームである場合には、Ｉフレームだけでフレーム画像データを生成することができる。Ｉフレームは、そのフレーム全ての情報を保持したフレームであり、フレーム間予測を用いずに符号化されるフレームだからである。サンプリング対象フレームがＰフレームである場合には、フレーム間予測で関連するＩフレーム及びＰフレームを使用してフレーム画像データを生成することができる。サンプリング対象フレームがＢフレームである場合には、フレーム間予測で関連するＩフレーム、Ｐフレーム及びＢフレームを使用してフレーム画像データを生成することができる。

さらに、たとえばＩフレームだけをサンプリングするようにしてもよい。こうすれば、フレーム間予測を実行する必要が無いので、処理負担を顕著に軽減することができる。あるいは、Ｉフレーム及びＰフレームだけをサンプリングするようにしてもよい。Ｐフレームのフレーム間予測にはＢフレームが使用されないので、ＩフレームとＰフレームだけからフレーム画像データを生成することができるからである。

Ｉフレーム、あるいはＩフレーム及びＰフレームのサンプリングでは、たとえばサンプリング周期に一致するフレームあるいはサンプリング周期内で最大間隔のフレームをサンプリングすることでサンプリング周期を実現することができる。サンプリング周期内において、Ｉフレーム及びＰフレームのいずれも存在しない場合には、その判断に基づいてＢフレームを使用してフレーム画像データを生成するようにしてもよい。

Ｂ．第２実施形態：
図６は、第２実施形態に係る静止画像取得処理の内容を示すフローチャートである。図７は、第２実施形態に係るフレーム画像抽出処理の内容を示すフローチャートである。第２実施形態に係る静止画像取得処理は、フレーム画像抽出処理（ステップＳ６０）がフレーム画像抽出処理（ステップＳ６００）に変更されている点で第１実施形態に係る静止画像取得処理と相違する。フレーム画像抽出処理（ステップＳ６００）は、時系列における特徴量の極大値の近傍のフレーム画像を抽出する点に特徴を有している。

特徴量は、ユーザーが望む静止画像であることを定量的に表すように設定されている。したがって、特徴量の極大値は、撮影者が被写体を設営する際に意図通りの画像が撮影された瞬間のフレーム画像であることを表すように意図されている。この例では、意図通りの画像とは、特定の人物の顔が正面から大きく撮影できたような場合、あるいは笑顔度が高い人物の顔が撮影された画像を意味する。笑顔度は、たとえば周知の３Ｄモデルフィッティングの手法を使用し、目や口の形状、さらに目や口の周辺の画像を使用する統計的識別手法により算出することができる。

しかしながら、特徴量が極大である画像が必ずしもユーザーが望む画像とは必ずしも一致しない。具体的には、たとえば親であるユーザーから見て、親が望む子供の表情が写っている画像は、笑顔度が極大値とは限らない。第２実施形態は、特徴量の極大値の近傍のフレーム画像を抽出することによって、笑顔度等でフレーム画像を絞り込み、その中からユーザーが好みのフレーム画像を選択できるようにしている。

ステップＳ６１０では、フレーム画像抽出部１１３は、極大値探索処理を実行する。極大値探索処理では、フレーム画像抽出部１１３は、時系列における特徴量の極大値を探索する。極大値とは、特徴量の局所的な（つまり、ある点の近傍における）最大値を意味している。

図８は、第２実施形態に係るフレーム画像抽出処理の概要を示す説明図である。図８は、時系列における特徴量の変動を表している特徴量曲線ＦＣを示している。この例では、特徴量曲線ＦＣは、第１の極大値ＬＭ１と、第２の極大値ＬＭ２と、第３の極大値ＬＭ３とを有している。図８では、最小値が０となり、最大値が１となるように特徴量が正規化されている。第１の極大値ＬＭ１は特徴量０．６５を有し、第２の極大値ＬＭ２は特徴量０．８を有し、第３の極大値ＬＭ３は特徴量０．５を有している。

この例では、特徴量曲線ＦＣは、サンプリング対象フレームの特徴量を使用して生成されたスプライン曲線として構成されている。スプライン曲線には、サンプリング対象フレームの特徴量を通過する曲線と、サンプリング対象フレームの特徴量を必ずしも通過しないスプライン曲線（たとえばＢ−スプライン曲線）とがある。特徴量曲線ＦＣは、スプライン曲線に限られず、サンプリング対象フレームの特徴量あるいはその近傍を通過する近似曲線であればよい。

ステップＳ６２０では、フレーム画像抽出部１１３は、閾値計算処理を実行する。閾値計算処理では、フレーム画像抽出部１１３は、この例では、極大値に対する予め設定された所定の割合である８０％として閾値を計算する。具体的には、たとえば第１の極大値ＬＭ１（特徴量０．６５）に対する閾値Ｔｈ１は、０．５２となり、第２の極大値ＬＭ２（特徴量０．８）に対する閾値Ｔｈ２は、０．６４となり、第３の極大値ＬＭ３（特徴量０．５）に対する閾値Ｔｈ３は、０．４となる。

ステップＳ６３０では、フレーム画像抽出部１１３は、隣接極小値探索処理を実行する。隣接極小値探索処理では、フレーム画像抽出部１１３は、各極大値の近傍において閾値を超える極小値を探索する。具体的には、フレーム画像抽出部１１３は、第３の極大値ＬＭの近傍において閾値Ｔｈ３（０．４）を超える極小値ＡＬを発見することができる。

ステップＳ６４０では、フレーム画像抽出部１１３は、隣接極小値が存在した場合には、処理をステップＳ６５５に進め、隣接極小値が存在しなかった場合には、処理をステップＳ６５０に進める。この例では、フレーム画像抽出部１１３は、第１の極大値ＬＭ１および第２の極大値ＬＭ２については処理をステップＳ６５０に進める。一方、第３の極大値ＬＭの始期時刻については処理をステップＳ６５５に進め、第３の極大値ＬＭの終期時刻については処理をステップＳ６５０に進める。

ステップＳ６５０では、フレーム画像抽出部１１３は、閾値との交差時刻を取得する。閾値との交差時刻は、スプライン曲線を使用して求めることもできるし、あるいは閾値より大きく閾値に最も近い特徴量を有するフレーム画像データの時刻として求めることもできる。この例では、フレーム画像抽出部１１３は、第１の極大値ＬＭ１については始期時刻ｔ１１と終期時刻ｔ１２とを取得し、第２の極大値ＬＭ２については始期時刻ｔ２１と終期時刻ｔ２２とを取得し、第３の極大値ＬＭ３については終期時刻ｔ３２を取得する。

ステップＳ６５５では、フレーム画像抽出部１１３は、隣接極小値の時刻を取得する。隣接極小値の時刻は、スプライン曲線を使用して求めることもできるし、あるいは隣接極小値の近傍のフレーム画像データの時刻として求めることもできる。この例では、フレーム画像抽出部１１３は、第３の極大値ＬＭ３について隣接極小値ＡＬの時刻である始期時刻ｔ３１を取得する。

ステップＳ６６０では、フレーム画像抽出部１１３は、静止画像データ抽出部として機能し、抽出対象選別処理を実行する。抽出対象選別処理では、フレーム画像抽出部１１３は、各極大値の近傍において始期時刻と終期時刻との間の所定の時間範囲内のフレーム画像データを抽出対象フレーム画像データとして選別する。所定の時間範囲は、換言すれば各極大値と始期時刻（又は隣接極小値の時刻）との間の時間と、各極大値と終期時刻（又は隣接極小値の時刻）との間の時間とを使用して設定される。

この例では、フレーム画像抽出部１１３は、第１の極大値ＬＭ１については始期時刻ｔ１１と終期時刻ｔ１２との間のフレーム画像データを選別し、第２の極大値ＬＭ２については始期時刻ｔ２１と終期時刻ｔ２２との間のフレーム画像データを選別し、第３の極大値ＬＭ３については始期時刻ｔ３１と終期時刻ｔ３２との間のフレーム画像データを選別する。

ステップＳ６７０では、フレーム画像抽出部１１３は、抽出対象フラグ処理を実行する。抽出対象フラグ処理では、フレーム画像抽出部１１３は、抽出対象フレーム画像データに抽出対象であることを示すフラグを設定する。

ステップＳ６８０では、フレーム画像抽出部１１３は、グループ化処理を実行する。グループ化処理では、フレーム画像抽出部１１３は、フラグが設定されている複数の抽出対象フレーム画像データを極大値毎にグループ化する（図３参照）。これにより、フレーム画像抽出部１１３は、第１の極大値ＬＭ１、第２の極大値ＬＭ２及び第３の極大値ＬＭ３に対して、それぞれフレーム画像データ群ＦＥ１ａ，ＦＥ２ａ,ＦＥ３ａを連続画像データファイルとして生成することができる。

このように、第２実施形態に係るフレーム画像抽出処理は、特徴量の極大値を探索し、極大値の８０％の閾値との交差時刻（又は隣接極小値の時刻）を使用して、特徴量の極大値の近傍のフレーム画像データを抽出する。これにより、画像形成装置１００は、極大値のピーク形状（あるいは傾斜）が急峻である場合は抽出するフレーム数を少なくして効率的な抽出を可能とする一方、極大値のピーク形状（あるいは傾斜）が緩やかである場合には、長時間に亘って安定的に意図通りの画像が取得できたとして、抽出するフレーム数を多くすることができる。

なお、本実施形態では、極大値の８０％の閾値との交差時刻が使用されているが、数値は８０％に限定されず、特徴量の極大値の近傍を決定するための時刻の設定方法も閾値と交差時刻を使用する方法に限定されない。第２実施形態に係るフレーム画像抽出処理は、極大値のピーク形状が緩やかである場合には、抽出するフレーム数を少なくする一方、極大値のピーク形状が緩やかである場合には、抽出するフレーム数を多くするように構成されていればよい。

また、本実施形態では、特徴量曲線ＦＣは、サンプリング対象フレームの特徴量を使用して生成された近似曲線として構成されているが、必ずしもサンプリング対象フレームの特徴量を使用する必要はなく、全てのフレーム画像データを使用するようにしてもよい。

Ｃ．第３実施形態：
図９は、第３実施形態に係る静止画像取得処理の内容を示すフローチャートである。第３実施形態に係る静止画像取得処理は、人物登録処理（ステップＳ１００）が追加されている点と、特徴量計算処理（ステップＳ４０）が特徴量計算処理（ステップＳ４００）に変更されている点とで第１実施形態及び第２実施形態に係る静止画像取得処理と相違する。

図１０は、第３実施形態に係る人物登録処理の内容を示すフローチャートである。ステップＳ１１０では、ユーザーは、人物登録処理用の動画像データ読込処理を実行する。動画像データ読込処理では、ユーザーは、操作表示部１３０を使用して人物登録処理用の動画像データを選択して動画像データの読込を指示する。動画像データは、たとえばワイヤレス通信（図示せず）や可搬記憶媒体（図示せず）を利用して画像形成装置１００で読込可能とすることができる。

ステップＳ１２０では、制御部１１０の特徴量演算部１１２は、人物検出処理を実行する。人物検出処理では、特徴量演算部１１２は、動画像データからフレーム画像データを生成し、フレーム画像データファイルによって表される静止画像中から人物と思われる特徴を有する画像領域である人物検出領域を抽出する。特徴量演算部１１２は、たとえばＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量に基づいて、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などの機械学習を利用して人物検出領域を抽出することができる。

ステップＳ１３０では、特徴量演算部１１２は、人物分類処理を実行する。人物分類処理では、特徴量演算部１１２は、たとえば予め登録されている家族の誰かに人物検出領域中の人物を分類する。本実施形態では、家族として父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄが操作表示部１３０を使用してユーザーによって予め登録されているものとする。

特徴量演算部１１２は、予め設定されている画像領域よりも大きなサイズで人物の顔が表示されているフレーム画像データを選択し、自動的に複数のグループに分類して操作表示部１３０に表示する。ユーザーは、操作表示部１３０を介して、複数のグループのそれぞれが父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄあるいは他人の何れに該当するかを選択して入力する。

ユーザーは、さらに、たとえば息子Ｃのグループに父親Ａの静止画像が含まれているといった誤認識に応じて修正動作を行うことができる。これにより、特徴量演算部１１２は、機械学習の精度を向上させることができる。特徴量演算部１１２は、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄをレコードとしてデータベースを生成する。データベースには、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄの顔画像のＨＯＧ特徴量が登録される。

ステップＳ１４０では、特徴量演算部１１２は、服装選択処理を実行する。服装選択処理では、特徴量演算部１１２は、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄのそれぞれが着ている服装についてのＨＯＧ特徴量をフレーム画像データから抽出する。これにより、特徴量演算部１１２は、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄの顔画像のＨＯＧ特徴量に加えて、その服装画像のＨＯＧ特徴量を使用して人物を特定することができる。各人物は、同一の服装を着ることが多く、相違する人物は、相違する服装を着る傾向があるからである。

ステップＳ１５０では、特徴量演算部１１２は、データベース登録処理を実行する。データベース登録処理では、特徴量演算部１１２は、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄについてのデータベースを記憶部１４０の人物登録データ格納領域１４２に格納する。データベースには、父親Ａ、母親Ｂ、息子Ｃ及び娘Ｄをレコードとし、それぞれの顔画像のＨＯＧ特徴量、服装画像のＨＯＧ特徴量、顔画像の機械学習データ、服装画像の機械学習データに加え、身長その他のユーザー入力可能な属性データが含まれる。

ユーザーは、さらに、デジタルカメラで撮像した静止画像データを使用して各人物の顔画像や服装画像のデータを登録することもできる。特徴量演算部１１２は、このような画像データを使用して、顔画像のＨＯＧ特徴量及び服装画像のＨＯＧ特徴量を生成して、データベースに登録することができる。なお、本実施形態では、ＨＯＧ特徴量は、画像認識における計算負荷の小さいＹＵＶ画像データに基づいて生成されているものとする。

図１１は、第３実施形態に係る特徴量計算処理の内容を示すフローチャートである。特徴量計算処理（ステップＳ４００）では、特徴量演算部１１２は、比較的に処理負荷が小さい候補領域高速検出処理を実行して所定の特徴を有する領域である候補領域を検出し、検出された各候補領域において人物を特定するための特徴量を計算する（比較的に処理負荷が大きい）。

ステップＳ４１０では、特徴量演算部１１２は、候補領域高速検出処理を実行する。候補領域高速検出処理では、特徴量演算部１１２は、フレーム画像データから候補領域を検出する。候補領域高速検出処理は、人物認識処理（後述）よりも処理速度を優先して構成されている検出処理方法を採用している。

具体的には、特徴量演算部１１２は、広く使用されている顔検出処理、たとえばＨａａｒ−ｌｉｋｅ検出器を使用する多段フィルタ処理を実行する。ただし、多段フィルタ処理は、段数を少なくして計算速度を優先するように構成されている。したがって、候補領域高速検出処理には、ユーザーが望まない領域を候補領域として検出することが許容されている。

ステップＳ４２０では、特徴量演算部１１２は、候補領域切り出し処理を実行する。候補領域切り出し処理では、特徴量演算部１１２は、ビットマップ画像データであるフレーム画像データにおいて検出された各候補領域の位置を表す座標や大きさを表す情報である候補領域情報を取得し、候補領域情報を使用して各候補領域のビットマップ画像データを生成する。

ステップＳ４３０では、特徴量演算部１１２は、複数の候補領域のビットマップ画像データの画素数（面積）の総和とフレーム画像データの全画素数（全面積）とを比較する。本願発明者は、複数の候補領域が相互に重なり合って、複数の候補領域の画素数の総和がフレーム画像データの画素数を超え、却って計算量が増大する可能性があるという課題を見いだした。

特徴量演算部１１２は、複数の候補領域の画素数の総和がフレーム画像データの画素数未満のときには、処理をステップＳ４４０に進め、複数の候補領域の画素数の総和がフレーム画像データの画素数以上のときには、処理をステップＳ４５０に進める。これにより、特徴量演算部１１２は、上述の計算量の増大という課題を解決することができる。

ステップＳ４４０では、特徴量演算部１１２は、各候補領域のビットマップ画像データに基づいて各特徴量を計算し、その最大値を特徴量として出力する。最大値としたのは、同一人物の画像は、各ビットマップ画像データに１つだけのはずだからである。ステップＳ４５０では、特徴量演算部１１２は、フレーム画像データ全体としてのビットマップ画像データに基づいて特徴量を計算して出力する。

具体的には、特徴量演算部１１２は、人物認識処理を実行する。人物認識処理は、特定の人物である可能性（確度）を特徴量として定量的に表す処理である。人物認識処理では、フレームメモリ１１４に格納されている複数のフレーム画像データのそれぞれについてステップＳ１０で選択された特徴（この例では、特徴選択処理（ステップＳ１０）で娘Ｄが選択されたものとする。）が含まれているか否かを判断する。特徴量演算部１１２は、輝度データと色差データとを含むＹＵＶ画像データとしてのフレーム画像データから娘Ｄの検出を試みる。

特徴量演算部１１２は、たとえば周知のＯｐｅｎＣＶ（ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ）を使用して人物の検出や特定を実行することができる。特徴量演算部１１２は、フレーム画像データの中から人物を検出し、検出された人物の顔が娘Ｄの顔であるか否かを判断する。この判断は、娘Ｄの顔画像のＨＯＧ特徴量を使用して行われる。

特徴量演算部１１２は、娘Ｄの顔であるか否かの判断の確度が低い場合には、娘Ｄの服装画像のＨＯＧ特徴量を使用して娘Ｄであるか否かを判断する。服装画像のＨＯＧ特徴量は、特に、娘Ｄを横方向から撮影し、顔画像のサイズが小さい場合等に補助的に使用可能である。特徴量演算部１１２は、さらに娘Ｄの笑顔度も定量化して特徴量の算出に利用することもできる。このように、特徴量演算部１１２は、演算量が多く複雑な処理を各候補領域に対して実行することができる。

このように、第３実施形態に係るフレーム画像抽出処理は、候補領域高速検出処理を実行して所定の特徴を有する領域である候補領域を検出し、検出された各候補領域において計算負荷の大きな特徴量の計算を実行する。これにより、第３実施形態は、特徴量の計算対象を低減させることができるので、全体として特徴量の計算負荷を過大とすることなく、処理負担が比較的に大きくて高精度の計算方法を採用することができる。

なお、本実施形態では、候補領域高速検出処理（ステップＳ４１０）と人物認識処理（ステップＳ４４０，Ｓ４５０）は、相互に相違する種類の処理としているが、同一種類の処理で精度だけが相違するようにしてもよい。

また、本実施形態は、第１実施形態及び第２実施形態の少なくとも一方と組み合わせて実装することもできるし、第１実施形態及び第２実施形態のいずれとも組み合わせることなく実装することも可能である。さらに、第１実施形態乃至第３実施形態に係るフレーム画像抽出処理は、画像形成装置１００でなく画像処理装置として機能するスマートフォン２００側で実行するようにしてもよい。

Ｄ．第４実施形態：
図１２は、第４実施形態に係る静止画像取得処理の内容を示すフローチャートである。第４実施形態に係る静止画像取得処理は、少なくともフレーム画像データ出力処理（ステップＳ８０）が印刷出力処理（ステップＳ８００）に変更されている点で第１実施形態乃至第３実施形態に係る静止画像取得処理と相違する。

図１３は、第４実施形態に係る印刷出力処理の内容を示すフローチャートである。この例では、画像形成装置１００は、コンビニエンスストア等に設置され、金銭の投入その他の入金処理に応じて印刷出力可能とされる。

ステップＳ８１０では、ユーザーは、画像形成装置１００の図示しない金銭投入用のスリットから金銭を投入する。この例では、ユーザーは、画像形成装置１００に５００円の硬貨を投入したものとする。画像形成装置１００では、利用可能な印刷サイズには、Ｌ版（１２７ｍｍ×８９ｍｍ）と、２Ｌ版（１２７ｍｍ×１７８ｍｍ）とがあるものとする。この例では、印刷サイズとしてＬ版（１２７ｍｍ×８９ｍｍ）が初期設定として設定され、その単価は、３０円であるものとする。

ステップＳ８２０では、制御部１１０は、印刷可能枚数計算部として機能し、印刷可能枚数を計算する。制御部１１０は、印刷サイズの設定がなされるまでは、初期設定（Ｌ版）に基づいて１６枚（＝５００円（入金処理で入金された金額）÷３０円（単価））を印刷可能枚数として計算する。

ステップＳ８３０では、制御部１１０は、グループ数計算処理を実行する。グループとは、グループ化処理（ステップＳ６８及びステップＳ６８０）によってグループ化された時系列的に連続している複数のフレーム画像データ（連続画像データファイルを構成）である。グループには、たとえば第１フレーム画像データ群ＦＥ１、第２フレーム画像データ群ＦＥ２及び第３フレーム画像データ群ＦＥ３（第１実施形態）や３つのフレーム画像データ群ＦＥ１ａ,ＦＥ２ａ,ＦＥ３ａ（第２実施形態）がある。

ステップＳ８４０では、制御部１１０は、印刷可能枚数がグループ数以上であるか否かを判断する。印刷可能枚数がグループ数未満の場合には、制御部１１０は、処理をステップＳ８５０に進め、印刷可能枚数がグループ数以上の場合には、制御部１１０は、処理をステップＳ８６０に進める。ステップＳ８５０では、制御部１１０は、第１の印刷対象画像選択処理を実行する。なお、第２の印刷対象画像選択処理については後述する。

図１４は、第４実施形態に係る印刷対象画像選択処理の内容を示すフローチャートである。ステップＳ８５１では、特徴量演算部１１２は、グループ毎の平均特徴量を計算する。平均特徴量は、たとえば各グループの上位１０個のフレーム画像データの特徴量の平均値として算出することができる。

図１５は、第４実施形態に係る印刷対象画像選択処理における操作表示画面を示す説明図である。図１５（ａ）は、シーン選択画面として代表静止画像をグループ毎に表示している。この例では、各グループに含まれている複数のフレーム画像データ群は、各シーンを構成しているものとする。図１５の操作表示画面では、タッチパネルとして機能する操作表示部１３０において操作（ピンチイン、ピンチアウト、ドラッグ等）することで表示された画像の拡大縮小、移動などを行うことが可能である。

図１５（ａ）では、操作表示部１３０のディスプレイ１３１には、３枚の代表静止画像Ｆ５５，Ｆ４３，Ｆ１７と、高評価方向にスクロールするためのスクロールアイコンＳＣ１と、低評価方向にスクロールするためのスクロールアイコンＳＣ２と、残枚数（印刷可能枚数）と残シーン数とを表示する表示領域ＲＣとが表示されている。ディスプレイ１３１は、タッチパネルとして機能し、スワイプすることによって画面をスクロールさせることも可能である。

ステップＳ８５２では、ディスプレイ１３１は、平均特徴量が大きい順に代表静止画像を表示する。ディスプレイ１３１は、表示制御部として機能する制御部１１０によって生成された表示データに基づいて表示する。表示データは、特徴的な領域と紐づけて代表静止画像を表示するためのデータである。表示データは、複数の代表静止画像のそれぞれの特徴的な領域を、複数の代表静止画像のそれぞれとの関係が分かるように表示するように構成されている。代表静止画像を表示する順序は、平均特徴量に限られず特徴量を使用して決定された順序であればよい。

この例では、ディスプレイ１３１は、３枚の代表静止画像Ｆ５５，Ｆ４３，Ｆ１７を左側から平均特徴量が大きい順に表示している。代表静止画像Ｆ５５は、第３フレーム画像データ群ＦＥ３を代表するフレーム画像データＦ５５によって表される静止画像である。代表静止画像Ｆ４３は、第２フレーム画像データ群ＦＥ２を代表するフレーム画像データＦ４３によって表される静止画像である。代表静止画像Ｆ１７は、第１フレーム画像データ群ＦＥ１を代表するフレーム画像データＦ１７によって表される静止画像である（第１実施形態の図４参照）。

この例では、ディスプレイ１３１は、代表静止画像Ｆ５５，Ｆ４３，Ｆ１７の上側には、特徴的な領域の画像である特徴画像Ｑ５５，Ｑ４３，Ｑ１７を表示している。これにより、ユーザーは、代表静止画像Ｆ５５，Ｆ４３，Ｆ１７を含むグループが自動的に選択された基準（又は理由）を確認することができる。この例では、代表静止画像Ｆ５５，Ｆ４３，Ｆ１７の各グループは、笑顔度の高い娘Ｄを被写体として含む静止画像を抽出するための特徴量に基づいて抽出されているものとする。

具体的には、特徴画像Ｑ５５は、第３実施形態に係るフレーム画像抽出処理において代表静止画像Ｆ５５が抽出される際の特徴量の算出に使用された候補領域の画像である。特徴画像Ｑ４３は、代表静止画像Ｆ４３が抽出される際の特徴量の算出に使用された候補領域の画像である。特徴画像Ｑ１７は、代表静止画像Ｆ１７が抽出される際の特徴量の算出に使用された候補領域の画像である。

ステップＳ８５３では、ユーザーは、シーンの選択処理としてグループを選択する。この例では、ユーザーは、ディスプレイ１３１に表示されている代表静止画像Ｆ４３（又は特徴画像Ｑ４３）をタッチしてシーンを選択し、シーン選択アイコンＭ１をタッチして確定したものとする。

図１５（ｂ）は、画像選択画面として代表静止画像Ｆ４３の前後の２つの静止画像Ｆ４２、Ｆ４４を表示している。図１５（ｂ）では、ディスプレイ１３１には、３枚の静止画像Ｆ４２，Ｆ４３，Ｆ４４と、特徴画像Ｑ４２，Ｑ４３，Ｑ４４と、残枚数と残シーン数とを表示する表示領域ＲＣと、時系列の前側にスクロールするためのスクロールアイコンＳＣ３と、後側にスクロールするためのスクロールアイコンＳＣ４とが表示されている。

これにより、以下のようなトレードオフの問題を解決することができる。すなわち、動画像データから静止画像データを抽出した後において、多数の静止画像の中から所望の静止画像を選択するためには、各静止画像の大きさを小さくして一覧表示を行いたいという要請がある。一方、各静止画像の大きさを小さくすると、各静止画像の特徴的な画像領域（たとえば顔画像）が小さくなってしまい、静止画像の選択が困難になるというトレードオフの問題である。

ステップＳ８５４では、ユーザーは、画像選択処理としてフレーム画像データを選択する。この例では、ユーザーは、ディスプレイ１３１に表示されている静止画像Ｆ４２（又は特徴画像Ｑ４２）をタッチして静止画像を選択し、画像選択アイコンＭ２をタッチして確定したものとする。

ステップＳ８５５では、ユーザーは、印刷レイアウト設定処理を実行する。印刷レイアウト設定処理では、ユーザーは、静止画像Ｆ４２の一部を抽出し、Ｌ版又は２Ｌ版の印刷サイズの印刷レイアウトを設定する。

図１６は、第４実施形態に係る印刷レイアウト設定処理の内容を示すフローチャートである。図１７は、第４実施形態に係る印刷レイアウト設定処理における操作表示画面を示す説明図である。図１７（ａ）は、静止画像Ｆ４２に表示されている人物の顔を拡大して示している。図１７の操作表示画面においても、タッチパネルとして機能する操作表示部１３０において操作（ピンチイン、ピンチアウト、ドラッグ等）することで表示された画像の拡大縮小、移動などを行うことが可能である。

この例では、ディスプレイ１３１は、静止画像Ｆ４２が娘Ｄの顔を表示する特徴画像Ｑ４２と、息子Ｃの顔を表示する抽出画像Ｆ４２ｃと、人物登録データ格納領域１４２に未登録の２人の他人の顔を表示する２つの抽出画像Ｆ４２ａ，Ｆ４２ｂとを含んでいることを示している。３つの抽出画像Ｆ４２ａ，Ｆ４２ｂ，Ｆ４２ｃは、静止画像Ｆ４２の変更に応じて、特徴量演算部１１２による顔検出処理で抽出されたものである。

ステップＳ８５５１では、ユーザーは、印刷レイアウト設定部として機能し、被写体人物選択処理を実行する。被写体人物選択処理では、ユーザーは、息子Ｃの顔と娘Ｄの顔とを参照しつつ、時系列的に前側の静止画像へ変更するためのスクロールアイコンＳＣ５と、後側の静止画像へ変更するスクロールアイコンＳＣ６とをタッチして静止画像をグループ内で変更することができる。この例では、ユーザーは、娘Ｄの顔と息子Ｃの顔とを選択し、人物選択アイコンＭ３をタッチして確定したものとする。３つの抽出画像Ｆ４２ａ，Ｆ４２ｂ，Ｆ４２ｃは、静止画像の変更に応じて抽出・変更される。

図１７（ｂ）は、静止画像Ｆ４２に対して印刷レイアウト設定処理が施された静止画像Ｆ４２Ｌを拡大して示している。図１７（ｂ）は、さらに、２人の他人の顔が印刷レイアウトで設定されている印刷の対象となる領域である印刷対象領域から排除されていることが分かるように抽出画像Ｆ４２ａ，Ｆ４２ｂを表示している。静止画像Ｆ４２Ｌは、娘Ｄの顔と息子Ｃの顔と体が選択される一方、２人の他人の顔を排除する印刷レイアウトを採用している。静止画像Ｆ４２Ｌには、以下の方法で自動的に印刷レイアウト設定処理が施されている。ユーザーは、レイアウト調整Ｍ４をタッチして印刷レイアウトを調整（変更）し、縦横変更Ｍ５をタッチしてＬ版の縦横を変更することができる。

ステップＳ８５５２では、制御部１１０は、被写体人数カウント処理を実行する。被写体人数カウント処理では、制御部１１０は、選択された顔の数を被写体人数としてカウントする。ステップＳ８５５３では、制御部１１０は、被写体人数が１人であるか否かを判断する。被写体人数が１人でない場合には、制御部１１０は、処理をステップＳ８５５４に進め、被写体人数が１人である場合には、制御部１１０は、処理をステップＳ８５５５に進める。

図１８は、第４実施形態に係る印刷レイアウト設定処理の一例を示す説明図である。図１８は、印刷レイアウト設定処理を分かりやすく説明するために２人の人物Ｈ１，Ｈ２の顔を表示する静止画像Ｆ１０１を示している。

ステップＳ８５５４では、制御部１１０は、被写体人物全員を包含する矩形を設定する。具体的には、制御部１１０は、２人の人物Ｈ１，Ｈ２の全員の顔とその周辺を包含するバウンディングボックスＢＢ１として矩形を自動的に設定する。

図１９は、第４実施形態に係る印刷レイアウト設定処理の他の例を示す説明図である。図１９は、印刷レイアウト設定処理を分かりやすく説明するために１人の人物Ｈ３の顔を表示する静止画像Ｆ１０２，Ｆ１０３を示している。静止画像Ｆ１０２では、人物Ｈ３は、顔も視線も撮影者の方向である撮影方向に向けている。静止画像Ｆ１０３では、人物Ｈ３は、顔も視線も左側の方向に向けている。

被写体人数が１人である場合には、制御部１１０は、被写体の視線方向に基づいて印刷レイアウト設定処理を実行する。ステップＳ８５５５では、制御部１１０は、視線方向推定処理を実行する。視線方向推定処理では、制御部１１０は、たとえば特開平８−３２２７９６で提案されている方法を採用して推定することができる。

特開平８−３２２７９６は、顔画像の解析、すなわち、顔の部分の画像から目の部分の画像を切り出し、目の位置情報を表す特徴量を抽出して、特徴量と標準パターンの比較に基づいて視線方向を推定する方法を提案している。特徴量は、濃淡画像の目の部分の黒目に対応する水平方向、垂直方向それぞれの濃度分布を含んでいる。

ステップＳ８５５６では、制御部１１０は、視線方向に空間を配置して印刷レイアウトを設定する。写真撮影においては、一般的に被写体の視線方向や顔の方向に空間が配置されるようにして安定感のある構図が採用される。このように、制御部１１０は、視線の方向と顔の方向の少なくとも一方の方向である被写体方向に応じて印刷レイアウトを設定し、自動的に安定感のある構図を採用することができる。

静止画像Ｆ１０２においては、制御部１１０は、静止画像Ｆ１０２から人物Ｈ３とその周辺を包含するバウンディングボックスＢＢ２として矩形を自動的に設定する。制御部１１０は、人物Ｈ３の顔も視線も撮影者の方向に向けられているので、バウンディングボックスＢＢ２から両脇方向に均等に広げた構図を採用する。

一方、静止画像Ｆ１０３においては、制御部１１０は、静止画像Ｆ１０３から人物Ｈ３とその周辺を包含するバウンディングボックスＢＢ３として矩形を自動的に設定する。制御部１１０は、人物Ｈ３の顔も視線も左側の方向に向けられているので、バウンディングボックスＢＢ３から左側に比較的に大きな空間を配置する構図を採用する。

なお、撮影方向に対する被写体方向の角度が大きいほど、被写体方向の反対側に配置される空間に対する被写体方向の側に配置される空間の比が大きくなるようにしてもよい。また、人物の数が複数である場合において、複数の顔の被写体方向が同一方向に向いている場合には、その同一方向の側に広い空間を配置するようにしてもよい。

ステップＳ８５５７では、制御部１１０は、マージン設定処理を実行する。マージン設定処理では、制御部１１０は、人物をカメラで撮影した場合に想定される一般的なマージンを自動的に配置してフレーム枠Ｆｒ１，Ｆｒ２，Ｆｒ３を設定する。この設定は、初期設定としてのＬ版（１２７ｍｍ×８９ｍｍ）のアスペクト比を想定して行われる。

動画像のアスペクト比は、一般的に静止画像のアスペクト比と相違するので、静止画像のアスペクト比への編集の際に動画像の撮影時に意図した構図が維持できないことがある。さらに、動画撮影では、撮影者も被写体も動くことがあり、構図を意識した撮影が一般に困難である。

このような問題に対して、本実施形態では、制御部１１０は、人物をスチルカメラで撮影した場合に想定される適切な構図を実現し、一般的なマージンを自動的に配置してフレーム枠Ｆｒ１，Ｆｒ２，Ｆｒ３をＬ版に設定することができる。これにより、動画像の撮影時に意図した構図を維持し、さらには動画像の撮影時には構図を意識しなくても安定感のある好ましい構図の半自動的な設定といった支援を実行して、ユーザー負担を軽減することができる。

ステップＳ８５６（図１４参照）では、印刷設定処理を実行する。印刷設定処理では、ユーザーは、印刷枚数や画像処理の内容を設定し、設定完了Ｍ６（図１７（ｂ）参照）をタッチして印刷設定処理を完了させる。

ステップＳ８５７では、制御部１１０は、印刷可能枚数更新処理を実行する。印刷可能枚数更新処理では、制御部１１０は、設定が完了した静止画像について印刷処理が実行されるものとして、印刷可能な残枚数を計算する。この例では、１枚の静止画像Ｆ４２Ｌの印刷が設定されるので、表示領域ＲＣにおいて印刷可能枚数（残枚数）が１６枚から１５枚に更新されるとともに、残シーン数が１８から１７に更新される。

制御部１１０は、第１の印刷対象画像選択処理として、ステップＳ８５１乃至ステップＳ８５７の処理を最終グループまで実行する（ステップＳ８５８）。この例では、残シーン数は、印刷処理の対象として選択された静止画像データを含むグループよりも後に表示される未処理のグループの数である。

一方、印刷可能枚数がグループ数以上の場合には、制御部１１０は、処理をステップＳ８６０に進める（図１３参照）。ステップＳ８６０では、制御部１１０は、第２の印刷対象画像選択処理を実行する。第２の印刷対象画像選択処理は、代表静止画像を時系列順でグループ毎に表示する点で、平均特徴量が大きい順に代表静止画像を表示する第１の印刷対象画像選択処理と相違する。

印刷可能枚数がグループ数以上の場合には、グループ毎に少なくとも１枚ずつ印刷出力処理が可能なので、制御部１１０は、代表静止画像を時系列順でグループ毎に表示することができる。これに対して、印刷可能枚数がグループ数未満の場合には、ユーザーは、印刷出力処理を行うグループの選択が望まれるので、平均特徴量が大きい順に代表静止画像を表示する。

さらに、制御部１１０は、操作表示部１３０の表示領域ＲＣにおいて印刷可能枚数（残枚数）と残シーン数とを表示することができる。これにより、ユーザーは、グループ（シーン）の選択を円滑に行うことができる。ユーザーは、たとえば印刷可能枚数が残シーン数（残グループ数）よりも多いときには、各グループから改めて画像を追加で選択することもできる。

動画像データから静止画像データを抽出する場合には、一般的に静止画像の抽出数を予測することが困難である。たとえば旅先において、コンビニエンスストア等に設置してある画像形成装置を使用して印刷処理を行う場合に、抽出数が予測できないので、支払うべき料金を考慮しつつ印刷対象とする静止画像を選択する負担が大きい。本実施形態は、動画像データから抽出された複数の静止画像データから所望の静止画像データを選択するための負担を軽減させることができる。

ステップＳ８７０では、制御部１１０は、操作処理部（スタートスイッチ）１３２の押下に応じて画像形成部１２０を使用して印刷媒体上に画像を形成する。印刷対象となるのは、ステップＳ８５６（図１４参照）において印刷設定処理が完了した静止画像データである。

なお、制御部１１０は、印刷設定処理の完了に応じて直ちに印刷媒体上に画像を形成するようにしてもよい。しかしながら、上述の実施形態によれば、印刷設定処理の解除を許容することによって静止画像データを選択し直すことができるという利点を有している。

このように、第４実施形態に係る静止画像取得処理は、動画像データから抽出された静止画像データの中から被写体の顔の状態を確認しつつシーン（グループ）を選択し、そのグループから望まれる静止画像を円滑に選択することができる。

第４実施形態に係る静止画像取得処理は、さらに、選択された静止画像から被写体の状態を考慮して自動的に適切な構図でレイアウト設定処理を行うこともできる。このように、第４実施形態に係る静止画像取得処理は、動画像データを使用する印刷処理において、ユーザーの負担を軽減しつつ適切な静止画像の印刷出力を実現することができる。

Ｅ．変形例：
本発明は、上記各実施形態だけでなく、以下のような変形例でも実施することができる。

上記実施形態では、画像形成装置に本発明が適用されているが、たとえばスマートフォンやパーソナルコンピュータといった画像処理装置として機能する装置に適用することもできる。

１００画像形成装置
１１０制御部
１１１フレーム画像生成部
１１２特徴量演算部
１１３フレーム画像抽出部
１１４フレームメモリ
１１５周期設定部
１２０画像形成部
１３０操作表示部
１４０記憶部
１５０通信インターフェース部
２００スマートフォン

Claims

動画像データから複数の静止画像データを生成する静止画像データ生成部と、
前記静止画像データにおいて人間の顔を現す特徴を有する領域である候補領域を検出し、前記検出された候補領域のそれぞれにおいて予め登録されている人物の顔である確度を定量的に表している特徴量を計算し、前記計算された特徴量の最大値を出力する特徴量演算部と、
前記出力された最大値が所定の閾値を超える特定の候補領域を含んでいる前記静止画像データを抽出する静止画像データ抽出部と、
前記特定の候補領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御部と、
を備え、
前記特徴量演算部は、前記少なくとも１つの候補領域として複数の候補領域を検出し、前記複数の候補領域の画素数の総和が前記静止画像データの画素数を超えた場合には、前記静止画像データの全体を対象として前記特徴量を計算する画像処理装置。
請求項１記載の画像処理装置であって、
前記所定の特徴は、人間の笑顔の程度を現す特徴を含み、
前記静止画像データ抽出部は、前記笑顔の程度を使用して前記特徴量を計算する画像処理装置。
請求項１又は２に記載の画像処理装置であって、
前記表示制御部は、前記静止画像データを複数表示し、前記複数の静止画像データのそれぞれの前記特定の候補領域を、前記複数の静止画像データのそれぞれとの関係が分かるように表示するための前記表示データを生成する画像処理装置。
画像形成装置であって、
請求項１乃至３のいずれか１項に記載の画像処理装置と、
前記表示データに基づいて前記特定の候補領域と紐づけて前記静止画像データを表示する操作表示部と、
印刷媒体に画像を形成する画像形成部と、
を備える画像形成装置。
画像処理装置が、動画像データから複数の静止画像データを生成する静止画像データ生成工程と、
画像処理装置が、前記静止画像データにおいて人間の顔を現す特徴を有する領域である候補領域を検出し、前記検出された候補領域のそれぞれにおいて予め登録されている人物の顔である確度を定量的に表している特徴量を計算し、前記計算された特徴量の最大値を出力する特徴量演算工程と、
前記画像処理装置が、前記出力された最大値が所定の閾値を超える特定の候補領域を含んでいる前記静止画像データを抽出する静止画像データ抽出工程と、
前記画像処理装置が、前記特定の候補領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御工程と、
を備え、
前記特徴量演算工程では、前記画像処理装置が、前記少なくとも１つの候補領域として複数の候補領域を検出し、前記複数の候補領域の画素数の総和が前記静止画像データの画素数を超えた場合には、前記静止画像データの全体を対象として前記特徴量を計算する画像処理方法。
動画像データから複数の静止画像データを生成する静止画像データ生成部、
前記静止画像データにおいて人間の顔を現す特徴を有する領域である候補領域を検出し、前記検出された候補領域のそれぞれにおいて予め登録されている人物の顔である確度を定量的に表している特徴量を計算し、前記計算された特徴量の最大値を出力する特徴量演算部と、
前記出力された最大値が所定の閾値を超える特定の候補領域を含んでいる前記静止画像データを抽出する静止画像データ抽出部、及び
前記特定の候補領域と紐づけて前記静止画像データを表示するための表示データを生成する表示制御部として画像処理装置を機能させ、
前記特徴量演算部は、前記少なくとも１つの候補領域として複数の候補領域を検出し、前記複数の候補領域の画素数の総和が前記静止画像データの画素数を超えた場合には、前記静止画像データの全体を対象として前記特徴量を計算する画像処理プログラム。