JP2014165877A

JP2014165877A - 画像処理装置、撮像装置及び画像処理プログラム

Info

Publication number: JP2014165877A
Application number: JP2013037771A
Authority: JP
Inventors: Nobuhiro Fujinawa; 展宏藤縄; Hidenori Kuribayashi; 英範栗林; Hiroko Kobayashi; 寛子小林
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2014-09-08
Anticipated expiration: 2033-02-27
Also published as: JP6044777B2

Abstract

【課題】複数のフレームを含む画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供する。
【解決手段】
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する特徴量抽出部（４４）と、前記特徴量の変化が所定の閾値を超える変化部を抽出する変化部抽出部（４５）と、前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報を用いてテキストを生成するテキスト生成部（５０）と、を有する画像処理装置。
【選択図】図２

Description

本発明は、複数のフレームによって構成される画像データからテキストを生成する画像処理装置、撮像装置及び画像処理プログラムに関する。

画像データを解析した解析結果と、画像データに含まれる撮像情報等に基づいて、画像データに対するテキストを作成する技術が提案されている（特許文献１等参照）。また、近年では、複数のバリエーションを有するコメントリストを用意するなどして、ユーザーの感覚と整合性の高いテキストを作成する技術が提案されている。

また、テキスト作成のために有用と考えられる画像データの解析手法としては、例えば顔認識や色情報の抽出等が挙げられる。

特開２０１０−２０６２３９号公報

近年、撮像装置や画像処理装置の進歩により、特別な専門知識がなくても、安価で手軽に動画の作成を行えるようになっており、また、インターネット等を介して作成した動画を誰でも容易に公開することが可能である。そのため、静止画だけでなく動画についても、多様な画像の楽しみ方の一つをサポートする技術として、画像データに対してテキストを作成する技術に対するニーズが存在する。

そこで本発明の目的は、動画や連写写真ように複数のフレームを含む画像データから、当該画像データを見た際に人間が生じる感性に対して良好な整合性を有するテキストを生成し得る画像処理装置を提供することである。

上記目的を達成するために、本発明に係る画像処理装置は、
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する特徴量抽出部と、
前記特徴量の変化が所定の閾値を超える変化部を抽出する変化部抽出部と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報に基づきテキストを生成するテキスト生成部と、を有する。

また、例えば、前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出しても良く、
前記テキスト生成部は、前記変化部における前記特徴量の変化が増大方向である場合、前記像の動きが増大方向へ変化したことを表現する前記テキストを生成しても良い。

また、例えば、前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出しても良く、
前記テキスト生成部は、前記変化部における前記特徴量の変化が減少方向である場合、前記像の動きが減少方向へ変化したことを表現する前記テキストを生成しても良い。

また、例えば、前記フレームから人物の顔が写っている顔領域を抽出する顔領域抽出部をさらに有しても良く、
前記特徴量抽出部は、前記フレーム間における前記顔領域における像の動きに比例する前記特徴量を抽出しても良い。

また、例えば、本発明に係る画像処理装置は、生成した前記テキストを前記画像データの表示に重ねて表示するタイミングを決定するタイミング決定部を更に有しても良く、
前記タイミング決定部は、前記変化部と同時に又は前記変化部から所定時間までに前記テキストの表示が開始されるように前記タイミングを決定しても良い。

本発明に係る撮像装置は、上記のうちいずれかの画像処理装置と、被写体を撮像して前記画像データを生成する撮像部と、を有する。

本発明に係る画像処理プログラムは、コンピュータに、
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する処理と、
前記特徴量の変化が大きい変化部を抽出する処理と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報に基づきテキストを生成する処理と、を実行させる。

図１は、本発明の一実施形態に係る撮像装置の概略ブロック図である。図２は、図１に示す撮像装置に含まれる画像処理部の内部構成を表す概略ブロック図である。図３は、図２に示すテキスト生成部での処理を表すフローチャートである。図４は、図２に示す画像処理部において行われるテキスト生成処理の全体像を表すフローチャートである。図５は、第１実施例に係る画像処理を表す概念図である。図６は、第２実施例に係る画像処理を表す概念図である。図７は、図２に示すテキスト生成部が用いる辞書の内容の一例を示す概念図である。

図１は、本発明の一実施形態に係る撮像装置１０の概略ブロック図である。撮像装置１０は、撮像部１２、カメラ制御部２０、操作部２２、画像処理部４０、表示部２６、記憶部２８、バッファメモリ部３０、通信部３２、メモリカード（記憶媒体）３４等を有しており、各部分は、バス２４を介して相互に通信することができる。

撮像部１２は、光学系１４、撮像素子１６、Ａ／Ｄ変換部１８等を有しており、画像データを生成する。光学系１４は、１又は２以上のレンズを備え、レンズに入射した光の像を、撮像素子１６の受光面に形成する。

撮像素子１６は、例えばＣＣＤやＣＭＯＳ等の固体撮像素子によって構成され、光学系１４を介して受光面に結像した光学像を、電気信号に変換する。撮像素子１６は、生成した電気信号を、Ａ／Ｄ変換部１８に出力する。Ａ／Ｄ変換部１８は、撮像素子１６によって生成された電気信号に対して、アナログ／デジタル変換等を行い、カメラ制御部２０及び画像処理部４０等で処理可能な画像データを生成する。

撮像部１２による画像データの生成動作は、カメラ制御部２０によって制御される。例えば、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して動画撮影開始信号が入力されたタイミングで、所定のフレームレートで連続的な光電変換を行い、いわゆる動画の画像データを生成することができる。また、撮像部１２は、カメラ制御部２０による制御により、操作部２２等を介して撮影信号が入力されている間撮像素子１６による光電変換を断続的に行い、いわゆる静止画の連写撮影に係る画像データを生成することができる。なお、本明細書における説明では、連写に係る静止画群や動画を構成するデータ全体を画像データとし、時間軸に沿って配列可能な状態で画像データに含まれており、静止した像として認識可能な光学像の情報をフレームとする。また、画像データは音声情報を含んでいても良く、音声情報がフレームの配列に同期した再生タイミング情報を有している場合は、音声情報も対応するフレームの一部であると考えることができる。
また、撮像部１２は、撮影信号が入力されたタイミングで１枚だけ静止画を取得するいわゆる単写撮影が可能であっても良い。

撮像部１２で生成された画像データは、カメラ制御部２０の制御により、バッファメモリ部３０及び画像処理部４０を介して、メモリカード３４に保存される。なお、撮像部１２は、操作部２２等からの操作信号が入力されていない状態で、自動的に画像データの生成を行い、いわゆるスルー画の画像データを生成することもできる。この場合、撮像部１２で生成されたスルー画の画像データは、カメラ制御部２０の制御により、表示部２６に表示される。

画像処理部４０は、メモリカード３４又はバッファメモリ部３０に記憶されている画像データに対して、各種の画像処理を実行する。画像処理部４０は、撮像部１２で生成された動画、スルー画、連写撮影に係る静止画群等の画像データについて画像処理を行う他、メモリカード３４等に保存されている撮像部１２以外で生成された画像データについても、画像処理を行うことができる。画像処理部４０は、画像データの解析や、データの圧縮及び変換、画像データの表示（再生を含む）に重ねて表示されるテキストの生成などを行うことができるが、画像処理部４０の詳細については、後ほど述べる。

表示部２６は、液晶ディスプレイ等で構成されており、カメラ制御部２０の制御に従って、画像データや、操作メニュー等を表示する。また、表示部は、画像処理部４０によるテキスト生成処理によって生成されたテキストを、画像データの表示に重ねて表示することができる。記憶部２８には、撮像装置１０の制御に用いる撮影条件、画像処理条件、表示（再生）制御条件、記録制御条件、入出力制御条件や、テキストの生成に用いる辞書（テキスト集）など、各種の情報が記憶されている。カメラ制御部２０や画像処理部４０は、必要に応じて、記憶部２８に記憶されている情報を読み出し、演算処理に利用することができる。記憶部２８は、ＲＯＭ等によって構成される。

バッファメモリ部３０は、カメラ制御部２０及び画像処理部４０が演算処理を実施する際の作業領域として利用される。例えば、画像処理部４０が画像データに対して画像処理を行う場合、処理の対象となる画像データは、記憶媒体から読み出され、バッファメモリ部３０に一次的に格納される。バッファメモリ部３０は、ＲＡＭ等によって構成される。

操作部２２は、操作者が撮像装置１０に対して情報を入力するためのスイッチ等を有している。操作部２２は、電源スイッチ、レリーズスイッチ、録画開始スイッチ、モードスイッチ、メニュースイッチ、選択キー等を備えており、操作者の操作に対応した信号を、カメラ制御部２０に出力する。

通信部３２は、メモリカード３４を取り付けるスロットや、他の情報機器と通信を行うための送受信部等を有しており、撮像装置１０は、通信部３２を介して、メモリカード３４や他の情報機器から情報を取得できる。また、カメラ制御部２０は、通信部３２を介してメモリカード３４に画像データを出力し、メモリカード３４に画像データを保存することができる。

メモリカード３４は、通信部３２を介して着脱自在に接続される記憶媒体であり、撮像部１２等で生成された画像データ等を記憶することができる。メモリカード３４に保存される画像データの形式は特に限定されないが、例えば静止画であればイグジフ（Ｅｘｉｆ）形式のファイル、動画であればＭＯＶ形式等のファイルとして、メモリカード３４に保存される。

カメラ制御部２０は、撮像装置１０が備えている各部分の制御を行う。例えば、カメラ制御部２０には、電源部（不図示）が接続されており、カメラ制御部２０は、撮像装置１０内の各部分に対して適切に電力が供給されるように、制御を行う。カメラ制御部２０は、例えばマイクロプロセッサ等によって構成される。なお、カメラ制御部２０と画像処理部４０の演算処理は、共通のマイクロプロセッサで行われても良く、また別個の電子回路で行われても良い。

図２は、図１に示す画像処理部４０に含まれる処理部を、ブロック図で表したものである。画像処理部４０は、画像データ入力部４１と、解析部４３と、テキスト生成部５０と、タイミング決定部５２と、文章付加部５６とを有する。画像処理部４０は、図１に示す撮像部１２等で生成された画像データについて、各種の解析処理を行うことにより、画像データに関する各種の情報を取得し、取得した情報から画像データの内容と整合性の高いテキストを作成し、画像データにテキストを付加することができる。

図２に示す画像データ入力部４１は、メモリカード３４又はバッファメモリ部３０に格納されている画像データを読み出し、解析部４３に出力する。

解析部４３は、特徴量抽出部４４、変化部抽出部４５、顔領域抽出部４６を有しており、画像データから情報を取得し、また、取得した情報を用いて各種の演算処理を実施する。また、解析部４３は、Ｅｘｉｆファイル等の形式で画像データに関連付けて保存されている撮影情報を取得することができる。解析部４３がＥｘｉｆファイル等から取得可能な撮影情報は、画像データの撮影状況を示すデータであれば特に限定されないが、画像データの生成年月日、生成時間に関する情報や、画像データの生成場所（ＧＰＳデータ）、撮影者等に関する情報が含まれる。解析部４３で取得された画像データに関する情報は、テキスト生成部５０に出力され、テキスト生成部５０は、その情報をテキストの生成等に利用することができる。

特徴量抽出部４４は、画像データに含まれるフレーム間の差異に関する特徴量を抽出する。特徴量抽出部４４が抽出する特徴量は、フレーム間の差異（差分）に関するものであれば特に限定されないが、フレーム間の像の動きに比例する特徴量や、フレーム間の音の変化に比例する特徴量が挙げられる。また、特徴量抽出部４４が抽出する特徴量は、人物の顔が写っている顔領域など、フレーム内の特定の領域における像の動きに比例する特徴量であっても良く、また、特定の周波数帯の音の変化に比例する特徴であっても良い。

変化部抽出部４５は、特徴量の変化が所定の閾値を超える変化部を抽出する。変化部抽出部４５は、特徴量自体ではなく、特徴量の変化が大きい変化部を抽出することにより、動き始めや停止時に現れる像の動きの変化や、発音源の変化時に現れる音調の変化などを、変化部として抽出することができる。

顔領域抽出部４６は、人物の顔が写っている顔領域を、画像データを構成するフレームから抽出する。顔領域抽出部４６は、エッジ抽出やテンプレートマッチング等の技術により、フレームから人物の顔が写っている領域を抽出し、画像データに含まれる人物の像の数に関する情報を取得する。また、顔領域抽出部４６は、人物の像における顔の位置や、人物の像における肌の領域の位置及び広さ等に関する情報を取得しても良い。

テキスト生成部５０は、画像データ若しくは画像データに含まれるフレームから情報を取得し、取得した情報を用いてテキストを生成し、生成したテキストと画像データとを関連づける。テキスト生成部５０は、上述した特徴量や変化部に関する情報の他にも、フレームを構成する像の色に関する色情報や、フレームを構成する像のエッジ情報などを、解析部４３を用いて取得することが可能であっても良く、画像データから取得した情報を用いてテキストを生成することにより、画像データと好適にマッチングするテキストを生成する。

また、生成されたテキストと画像データとのマッチングを向上させるために、テキスト生成部５０は、画像データを構成するフレームのうち、変化部抽出部４５で抽出された変化部から所定の範囲内にあるフレームから情報を取得することが好ましい。また、テキスト生成部５０は、所定の範囲内にあるフレームから得た情報を用いて、図７に示すような辞書のうち１つを選択し、選択した辞書に含まれる語句を用いてテキストを生成することができる。

図３に示すフローチャートは、テキスト生成部５０が、特徴量抽出部４４及び変化部抽出部４５からの情報を用いてテキストを生成する処理の一例を表したものである。なお、図３に示す例では、特徴量抽出部４４は、フレーム間の像の動きに比例する特徴量を抽出する。図３のステップＳ１０１において、テキスト生成部５０は、処理対象となる画像データに対して、特徴量の変化（変化の大きさ）が所定の閾値以上となる変化部の抽出を試み、変化部の抽出に成功した場合はステップＳ１０２へ進み、変化部を抽出できなかった場合はステップＳ１０５へ進む。

画像データから変化部を抽出した場合、ステップＳ１０２において、抽出された変化部周辺のフレームから情報を取得して、抽出された変化部における特徴量の変化が増大方向であるか減少方向であるかを判断する。変化部における特徴量の変化が増大方向である場合にはステップＳ１０３へ進み、ステップＳ１０３では、テキスト生成部５０が「動いた」辞書（図７参照）を用いて、テキストを生成する。「動いた」辞書には、「動いた！」、「おおっ！」のような、動きが急に増大方向に変化したことに対する驚き等を表現する語句が含まれる。これに対して、変化部における特徴量の変化が減少方向である場合にはステップＳ１０４へ進み、ステップＳ１０４では、テキスト生成部５０が「決まった」辞書（図７参照）を用いて、テキストを生成する。「決まった」辞書には、「決まった！」、「フィニッシュ！」のような、動作が急に減少方向へ変化したことから連想される動作の完了等を表現する語句が含まれる。

図３のステップＳ１０１において変化点を抽出できなかった場合は、ステップＳ１０５へ進み、特徴量が所定値を上回るか否かを判断する。特徴量が所定値を上回る場合はステップＳ１０６へ進み、ステップＳ１０６では、テキスト生成部５０が「速い」辞書（図７参照）を用いて、テキストを生成する。「速い」辞書には、「速いなあ・・」、「速い」など、像の動きが速いことを表す語句が含まれる。

ステップＳ１０５で特徴量が所定値以下であった場合には、ステップＳ１０７へ進み、特徴量が所定値（ステップＳ１０５で用いた値より小さい値）を下回るか否かを判断する。特徴量が所定値を下回る場合はステップＳ１０８へ進み、テキスト生成部５０が「ゆったり」辞書（図７参照）を用いて、テキストを生成する。「ゆったり」辞書には、「遅い・・？」、「のんびりしてるね」など、像の動きが遅いことを表す語句が含まれる。また、ステップＳ１０７で特徴量が所定値以上であった場合は、変化部から所定の範囲内のフレームから像の動き以外の情報（例えば色情報など）を取得し、テキスト生成部５０は像の動き以外の特徴を表現した「中立」辞書を用いてテキストを生成する（ステップＳ１０９）。

図２に示すタイミング決定部５２は、テキスト生成部５０が生成したテキストを画像データの表示に重ねて表示するタイミングを決定する。タイミング決定部５２は、特徴量抽出部４４で抽出された特徴量や、変化部抽出部４５で抽出された変化部に関する情報など、解析部４３で取得された画像データに関する情報を用いて、テキストを表示するタイミングを決定することができる。例えばタイミング決定部５２は、変化部抽出部４５で抽出された変化部と同時又は変化部から所定時間までにテキストの表示が開始されるように、タイミングを決定することができる。これにより、画像の動きにあわせてタイミング良くテキストを表示することが可能になり、テキストと画像データのマッチング感が向上する。

文章付加部５６は、テキスト生成部５０によって生成されたテキストを、画像データに付与する。具体的には、文章付加部５６は、テキストのフォント、色、表示位置、テキストの動き（動画の場合）などを決定し、これにタイミング決定部５２から取得したテキストの表示タイミングを合わせて、画像データとテキストを合成した表示内容に関する情報を生成する。文章付加部５６は、画像データとテキストを合成した新たな画像データを生成してもよく、合成画像を表示する際に画像データに追加される表示情報及び画像データとの関連付け情報を含むファイルを生成しても良い。文章付加部５６は、必要に応じて、画像データとテキストを合成した表示内容を表示部２６に表示させても良く、生成した新たな画像データ及び情報ファイルを、メモリカード３４に記憶させても良い。

以下に、画像処理部４０において行われる処理の具体例を説明するが、本発明はこれに限定されない。

実施例１
図４は、図２に示す画像処理部４０において行われるテキスト生成処理の全体像を表すフローチャートである。図４におけるステップＳ００１では、操作部２２等を介して操作者の入力信号を検知したカメラ制御部２０等が、画像処理部４０に対して、テキスト生成処理に関する画像処理の開始を指示する（図１参照）。

ステップＳ００２では、図２に示す画像データ入力部４１が、操作部２２及び表示部２６の表示内容を介して取得した操作者の選択内容に従い、メモリカード３４に格納されている画像データ６０を読み出し、解析部４３に出力する。実施例１では、図５（Ａ）に示すような画像データ６０が、テキスト生成処理の対象となった場合を例に説明を行う。なお、図５（Ａ）に示すフレーム６０ａ〜６０ｆは、画像データ６０から一定時間間隔でフレームを抜き出し、抜き出した各フレーム６０ａ〜６０ｆを、時間の流れに沿って図面左から図面右へ配置したものである。

ステップＳ００３では、図２に示す特徴量抽出部４４が、隣接するフレーム間における像の動きを数値化した特徴量を、画像データ６０から抽出する。図５（Ａ）における各フレーム６０ａ〜６０ｆの下には、特徴量抽出部４４で抽出された特徴量を表すグラフ６１が、各フレーム６０ａ〜６０ｆが表示されるタイミングに合わせて示されている。特徴量を表すグラフ６１は、下方へ行くほど特徴量の値が小さく像の動きが小さいことを表しており、上方へ行くほど特徴量の値が大きく像の動きが大きいことを表している。

ステップＳ００４では、図２に示す変化部抽出部４５が、ステップＳ００３で抽出された特徴量の変化が、所定の閾値を超える変化部を抽出する。図５（Ａ）に示す特徴量のグラフ６１では、グラフの傾きが特徴量の変化に対応しており、フレーム６０ｃからフレーム６０ｄの間に、グラフの傾きが所定の閾値を超える変化部６２を抽出する。

ステップＳ００５では、図２に示すテキスト生成部５０が、変化部６２周辺のフレーム６０ｄ等から情報を取得し、取得した情報を用いてテキストを生成する。ステップＳ００５においては、テキスト生成部５０は、図３を用いて上述したように、まず画像データ６０から変化部６２を抽出できたか否かを判断し（ステップＳ１０１）、さらに抽出された変化部６２における特徴量の変化が増大方向であるか否かを判断する（ステップＳ１０２）。図５に示すように、画像データ６０から抽出された変化部６２における特徴量の変化は増大方向（グラフ６１の傾きが右上がり）であるため、テキスト生成部５０は、図７に示す「動いた」辞書を用いてテキストを生成する（ステップＳ１０３）。テキスト生成部５０は、例えば「動いた！」のように、「動いた」辞書に含まれる語句の１つを採用して、テキストを生成することができる。

ステップＳ００６では、図２に示すタイミング決定部５２が、テキスト生成部５０が生成したテキストを画像データ６０の表示に重ねて表示するタイミングを決定する。実施例１では、タイミング決定部５２は、変化部抽出部４５で抽出された変化部６２の直後に表示されるフレーム６０ｄと同期してテキストの表示が開始されるように、タイミングを決定する。

ステップＳ００７では、文章付加部５６が、テキストのフォント、色、表示位置、テキストの動きなどを決定し、画像データ６０とテキストを合成した表示内容に関する情報を生成してメモリカード等に保存した後、一連のテキスト生成処理を終了する。図５（Ｂ）は、実施例１に係るテキスト生成処理により生成されたテキストが、画像データ６０の表示に重ねて表示される様子を示したものである。上述したように、画像処理部４０は、像の動きの変化が大きくなる変化部を抽出し、像の動きが大きくなる変化部近傍のフレームから情報を得てテキストを生成することにより、画像データ６０とマッチング感が高いテキストを生成することができる。また、像の動き始めや停止時のように、画像データにおいて印象的な部分を効果的に抽出し、これを用いてテキストを生成及び表示することにより、よりマッチング感の高い画像データ及びテキストの表示を実現することができる。

実施例２
実施例２では、図６に示すような画像データ７０がテキスト生成処理の対象となる場合を例に、説明を行う。なお、実施例２の説明では、実施例１との相違点のみを説明し、実施例１と同様の処理が行われる部分については説明を省略する。また、図６に示すフレーム７０ａ〜７０ｇは、実施例１と同様に、画像データ７０から一定時間間隔でフレームを抜き出し、抜き出した各フレーム７０ａ〜７０ｇを、時間の流れに沿って図面上左から図面上右、図面下左から図面下右へ配置したものである。また、図６では、実施例２に係るテキスト生成処理により生成されたテキストも、画像データ７０の表示に重ねて表示してある。

ステップＳ００１〜ステップＳ００３では、実施例１と同様に、画像データ７０の入力と特徴量の抽出が実施される。図６における各フレーム７０ａ〜７０ｇの下には、ステップＳ００３において特徴量抽出部４４で抽出された特徴量を表すグラフ７１が、各フレーム７０ａ〜７０ｇが表示されるタイミングに合わせて示されている。また、ステップＳ００４でも、実施例１と同様に、図２に示す変化部抽出部４５によって、特徴量の変化が所定の閾値を超える変化部７２が抽出される。実施例２において、変化部抽出部４５は、フレーム７０ｃからフレーム７０ｄの間に、グラフの傾きが所定の閾値を超える変化部７２を抽出する。

ステップＳ００５では、テキスト生成部５０が、まず画像データ７０から変化部７２を抽出できたか否かを判断し（図３のステップＳ１０１）、さらに抽出された変化部７２における特徴量の変化が増大方向であるか否かを判断する（ステップＳ１０２）。図６に示すように、画像データ７０から抽出された変化部７２における特徴量の変化は減少方向（グラフ７１の傾きが右下がり）であるため、テキスト生成部５０は、図７に示す「決まった」辞書を用いてテキストを生成する（ステップＳ１０４）。テキスト生成部５０は、例えば「決まった！」のように、「決まった」辞書に含まれる語句の１つを採用して、テキストを生成することができる。ステップＳ００６及びステップＳ００７の処理は実施例１と同様である。

上述したように、画像処理部４０は、特徴量の変化が大きい変化部を抽出し、さらに変化部において特徴量が増加方向へ変化しているか減少方向へ変化しているかを判断することにより、画像データ７０の特徴を効果的に抽出することができ、抽出した特徴に関する情報を用いて画像データ７０とマッチング感が高いテキストを生成することができる。

本発明は上述した実施形態及び実施例に何ら限定されるものでなく、上述した各構成及び処理に様々な変化を加えることが可能である。例えば人物の表情をとらえているような動画が処理対象である場合には、特徴量抽出部４４が特徴量を顔領域に限定し、表情の変化が大きい部分を変化部として抽出することが可能である。これにより、画像処理部４０は、表情が良くなる瞬間をとらえてテキストを生成・表示させることが可能であり、よりテキストと画像データとのマッチング感を高めることができる。

また、生成したテキストの表示方法も特に限定されず、上述したように動画の表示に合わせて表示するだけでなく、抽出したフレームにテキストを重ねて静止画として表示する態様でも良い。また、画像データが連写写真である場合には、連写写真をスライドショーする際に、所定のフレーム（静止画）にテキストを重ねて表示しても良い。また、タイミング決定部５２が、表示タイミングを決定する処理は、図４に示すようにテキストの生成後に行っても良いが、テキストの生成前に行っても良い。

また、上述の実施形態及び実施例では、画像処理部４０を備える撮像装置１０を例に挙げて、画像処理装置の説明を行ったが、画像処理部４０を備える画像処理装置はこれに限定されず、パーソナルコンビュータ、携帯電話等、撮像部を必ずしも有しない装置であっても良い。また、画像データからテキストを生成するプログラムは、撮像装置１０だけでなく、画像処理を実施するその他の情報機器にも、実装することができる。なお、テキスト生成処理の対象となる画像データは、画像処理を実行する装置と一体の撮像装置で生成されたものに限られず、他の撮像装置、画像処理装置等で生成され、或いはインターネット等を介して取得できるあらゆる公開された画像データを、テキスト生成処理の対象とすることができる。

１０…撮像装置
１２…撮像部
１４…光学系
１６…撮像素子
１８…Ａ／Ｄ変換部
２０…カメラ制御部
２２…操作部
２４…バス
２６…表示部
２８…記憶部
３０…バッファメモリ部
３２…通信部
３４…メモリカード
４０…画像処理部
４１…画像データ入力部
４３…解析部
４４…特徴量抽出部
４５…変化部抽出部
４６…顔領域抽出部
５０…テキスト生成部
５２…タイミング決定部
５６…文章付加部
６０，７０…画像データ
６０ａ〜６０ｆ，７０ａ〜７０ｇ…フレーム
６１，７１…グラフ
６２，７２…変化部

Claims

複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する特徴量抽出部と、
前記特徴量の変化が所定の閾値を超える変化部を抽出する変化部抽出部と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報を用いてテキストを生成するテキスト生成部と、を有する画像処理装置。
請求項１に記載された画像処理装置であって、
前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出し、
前記テキスト生成部は、前記変化部における前記特徴量の変化が増大方向である場合、前記像の動きが増大方向へ変化したことを表現する前記テキストを生成することを特徴とする画像処理装置。
請求項１又は請求項２に記載された画像処理装置であって、
前記特徴量抽出部は、前記フレーム間における像の動きに比例する前記特徴量を抽出し、
前記テキスト生成部は、前記変化部における前記特徴量の変化が減少方向である場合、前記像の動きが減少方向へ変化したことを表現する前記テキストを生成することを特徴とする画像処理装置。
請求項１から請求項３までのいずれか１項に記載された画像処理装置であって、
前記フレームから人物の顔が写っている顔領域を抽出する顔領域抽出部をさらに有し、
前記特徴量抽出部は、前記フレーム間における前記顔領域における像の動きに比例する前記特徴量を抽出することを特徴とする画像処理装置。
請求項１から請求項４までのいずれか１項に記載された画像処理装置であって、
生成した前記テキストを前記画像データの表示に重ねて表示するタイミングを決定するタイミング決定部を更に有し、
前記タイミング決定部は、前記変化部と同時に又は前記変化部から所定時間までに前記テキストの表示が開始されるように前記タイミングを決定することを特徴とする画像処理装置。
請求項１から請求項５までのいずれか１項に記載された画像処理装置と、
被写体を撮像して前記画像データを生成する撮像部と、を有する撮像装置。
コンピュータに、
複数のフレームを含む画像データについて前記フレーム間の差異に関する特徴量を抽出する処理と、
前記特徴量の変化が大きい変化部を抽出する処理と、
前記変化部から所定の範囲内にある前記フレームから情報を取得し、取得した前記情報を用いてテキストを生成する処理と、を実行させる画像処理プログラム。