JP2012105205A - Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device - Google Patents
Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device Download PDFInfo
- Publication number
- JP2012105205A JP2012105205A JP2010254049A JP2010254049A JP2012105205A JP 2012105205 A JP2012105205 A JP 2012105205A JP 2010254049 A JP2010254049 A JP 2010254049A JP 2010254049 A JP2010254049 A JP 2010254049A JP 2012105205 A JP2012105205 A JP 2012105205A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- scene
- key frame
- unit
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置に関する。 The present invention relates to a key frame extraction device, a key frame extraction program, a key frame extraction method, an imaging device, and a server device.
ビデオクリップ(動画像データ)からキーフレームを抽出する技術が知られている(例えば、特許文献1参照)。この特許文献1には、カメラにカメラモーションセンサを備え、グローバルモーションを計算して複数のビデオセグメントを形成し、一連のカメラモーションクラスにしたがって各セグメントをラベリングし、このラベリングしたセグメントからキーフレーム候補を抽出する技術が開示されている。このグローバルモーションは、カメラモーションセンサによるカメラワークや映像から得られるカメラワークを計算したものである。 A technique for extracting a key frame from a video clip (moving image data) is known (see, for example, Patent Document 1). In this patent document, a camera is provided with a camera motion sensor, a global motion is calculated to form a plurality of video segments, each segment is labeled according to a series of camera motion classes, and a key frame candidate is determined from the labeled segments. A technique for extracting the above is disclosed. This global motion is obtained by calculating camera work obtained from a camera motion sensor and video.
しかしながら、特許文献1に開示されたキーフレーム候補の抽出方法では、カメラにカメラモーションセンサを設ける必要がある。また、この抽出方法では、グローバルモーションを計算するが、このグローバルモーションの計算負荷は重く高速な演算処理能力が要求される。すなわち、同文献に開示されたキーフレーム候補の抽出方法を実現するためのコストは高いものとなる。
そこで、本発明は、上記事情に鑑みてなされたものであり、特別なセンサを用いる必要がなく、高い演算処理能力を必要とせずに、動画像データからキーフレームを精度よく且つ低コストに抽出する、キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置を提供することを目的とする。
However, in the key frame candidate extraction method disclosed in Patent Document 1, it is necessary to provide a camera motion sensor in the camera. Further, in this extraction method, global motion is calculated, but the calculation load of this global motion is heavy and high speed processing capability is required. That is, the cost for realizing the key frame candidate extraction method disclosed in this document is high.
Therefore, the present invention has been made in view of the above circumstances, and it is not necessary to use a special sensor, and it is possible to extract key frames from moving image data with high accuracy and at low cost without requiring high arithmetic processing capability. An object of the present invention is to provide a key frame extraction device, a key frame extraction program, a key frame extraction method, an imaging device, and a server device.
[1]上記の課題を解決するため、本発明の一態様であるキーフレーム抽出装置は、動画像データを解析してシーンを検出するシーン解析部と、前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、備えることを特徴とする。
[2]上記の課題を解決するため、本発明の一態様であるキーフレーム抽出プログラムは、コンピュータを、動画像データを解析してシーンを検出するシーン解析部と、前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、として機能させる。
[3]上記の課題を解決するため、本発明の一態様であるキーフレーム抽出方法は、シーン解析部が、動画像データを解析してシーンを検出するシーン解析ステップと、キーフレーム抽出部が、前記シーン解析ステップにおいて前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出ステップと、を有することを特徴とする。
[4]上記の課題を解決するため、本発明の一態様である撮像装置は、撮像して動画像データを生成する撮像部と、前記撮像部が生成した動画像データを解析してシーンを検出するシーン解析部と、前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、前記キーフレーム抽出部が抽出したキーフレームに基づいて縮小画像データを生成するサムネイル生成部と、前記サムネイル生成部が生成した縮小画像データを表示する表示部と、備えることを特徴とする。
[5]上記の課題を解決するため、本発明の一態様であるサーバ装置は、動画像データを記憶する動画像データ記憶部と、前記動画像データ記憶部に記憶された動画像データを解析してシーンを検出するシーン解析部と、前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、前記キーフレーム抽出部が抽出したキーフレームに基づいて縮小画像データを生成し、この縮小画像データを前記動画像データに関連付けて前記動画像データ記憶部に記憶させるサムネイル生成部と、を備えたことを特徴とする。
[1] In order to solve the above-described problem, a key frame extraction device according to an aspect of the present invention includes a scene analysis unit that analyzes moving image data to detect a scene, and a scene of the scene detected by the scene analysis unit And a key frame extraction unit that extracts a key frame based on the length and the position of the image data in the time direction in the plurality of image data corresponding to the scene.
[2] In order to solve the above-described problem, a key frame extraction program according to one aspect of the present invention includes a scene analysis unit that detects a scene by analyzing moving image data, and a scene analysis unit that detects a computer. Based on the scene length of the scene and the position of the image data in the time direction in the plurality of image data corresponding to the scene, the key frame extracting unit is configured to extract a key frame.
[3] In order to solve the above problem, a key frame extraction method according to one aspect of the present invention includes a scene analysis step in which a scene analysis unit analyzes a moving image data to detect a scene, and a key frame extraction unit includes A key frame extraction step for extracting a key frame based on a scene length of the scene detected by the scene analysis unit in the scene analysis step and a position of image data in a time direction in a plurality of image data corresponding to the scene; It is characterized by having.
[4] In order to solve the above-described problem, an imaging apparatus according to an aspect of the present invention includes an imaging unit that captures and generates moving image data, and analyzes the moving image data generated by the imaging unit to generate a scene. A scene analysis unit to detect, and a key frame extraction unit to extract a key frame based on a scene length of the scene detected by the scene analysis unit and a position of image data in a time direction in a plurality of image data corresponding to the scene A thumbnail generation unit that generates reduced image data based on the key frame extracted by the key frame extraction unit; and a display unit that displays the reduced image data generated by the thumbnail generation unit.
[5] In order to solve the above-described problem, a server device according to one aspect of the present invention analyzes a moving image data storage unit that stores moving image data, and moving image data stored in the moving image data storage unit And extracting a key frame based on a scene analysis unit for detecting a scene, a scene length of the scene detected by the scene analysis unit, and positions of image data in a time direction in a plurality of image data corresponding to the scene A thumbnail generation unit that generates reduced image data based on the key frame extracted by the key frame extraction unit, and stores the reduced image data in the moving image data storage unit in association with the moving image data And.
本発明によれば、特別なセンサを用いる必要がなく、高い演算処理能力を必要とせずに、動画像データからキーフレームを精度よく且つ低コストに抽出することができる。 According to the present invention, it is not necessary to use a special sensor, and key frames can be extracted from moving image data with high accuracy and at low cost without requiring high calculation processing capability.
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
[第1の実施の形態]
図1は、本発明の第1実施形態であるキーフレーム抽出装置を適用した撮像装置の機能構成を表すブロック図である。同図に示すように、撮像装置100は、撮像部110と、制御部190と、操作部180と、画像処理部140と、表示部150と、記憶部160と、バッファメモリ部130と、通信部170とを、バス300を介して接続した構成を有する。
また、撮像装置100には、記憶媒体200が着脱可能に取り付けられている。なお、記憶媒体200は、撮像装置100に内蔵されるものであってもよい。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram showing a functional configuration of an imaging apparatus to which a key frame extraction apparatus according to the first embodiment of the present invention is applied. As shown in the figure, the imaging apparatus 100 includes an
In addition, a
撮像部110は、制御部190が設定した撮像条件(例えば、絞り値、露出値)に基づいて制御部190により制御され、被写体から到来する光束を撮像して画像データを生成する。本実施形態において、画像データはフレーム画像データである。後述するように、撮像装置100は写真のデータである静止画像データと、映像(ビデオ)のデータである動画像データとを扱う。静止画像データは1個の画像データである。また、動画像データは複数の画像データである。また、撮像部100は、静止画像データおよび動画像データのデータ圧縮処理を行って記憶媒体200に記憶させる。データ圧縮処理後の静止画像データは圧縮静止画像データであり、データ圧縮処理後の動画像データは圧縮動画像データである。ただし、撮像部100は、静止画像データを非圧縮のまま記憶媒体200に記憶させる場合もある。
以下の説明においては、撮像装置100が動画像データを扱う場合について説明する。
なお、本実施形態では、圧縮動画像データを復号したデータは動画像データであることとして以下説明する。
The
In the following description, a case where the imaging apparatus 100 handles moving image data will be described.
In the present embodiment, it will be described below that the data obtained by decoding the compressed moving image data is moving image data.
撮像部110は、その機能構成として、光学系111と、撮像素子119と、アナログ/デジタル(A/D)変換部120とを備える。
光学系111は、対物レンズおよび集束レンズを含むレンズ群を有し、被写体から到来する光束を集光して撮像素子119の撮像面に結像させる。
撮像素子119は、撮像面に結像した被写体像を光電変換することにより撮像してアナログ信号である画像信号を生成する。撮像素子119は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の固体撮像素子により実現される。
A/D変換部120は、撮像素子119が生成した画像信号を取り込んでデジタルデータである画像データに変換する。
The
The
The
The A /
なお、光学系111は、撮像装置100に一体的に設けられてもよいし、撮像装置100に着脱可能に取り付けられてもよい。
The
制御部190は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含んで実現される。制御部190は、ROMに記憶した制御プログラムをRAMに読み出して各ステップを実行することにより、バス300を介して各部を制御する。例えば、制御部190は、A/D変換部120が出力する画像データを、表示部150に表示させたり、画像処理部140でデータ圧縮させて記憶媒体200に記憶させたりする。また、制御部190は、記憶媒体200に記憶された圧縮静止画像データおよび圧縮動画像データをバッファメモリ部130に読み込ませ、画像処理部140により復号させて表示部150に表示させる。
The
また、制御部190は、その機能構成として、キーフレーム抽出装置500と、サムネイル生成部550とを備える。キーフレーム抽出装置500は、制御部190によって記憶媒体200からバッファメモリ部130に読み出され、画像処理部140によって復号された動画像データを取り込む。そして、キーフレーム抽出装置500は、取り込んだ動画像データからシーンを検出する。キーフレーム抽出装置500は、シーンが切り替わるタイミング(シーンカットタイミング)を推定することによりシーンを検出する。そして、キーフレーム抽出装置500は、推定したシーンカットタイミングに基づいてキーフレームを抽出し、このキーフレームを特定する情報(例えば、後述するフレーム識別情報)を出力する。そして、キーフレーム抽出装置500は、キーフレームを分類して分類データも出力する。
Further, the
撮影によって得られた動画像におけるシーンは、例えば、同一被写体が時間的な連続性を有して表現さる映像の一区間であり、シーンには撮影者が意図するテーマ(主題)が表現されていることが多い。連接する2個のシーンの区切り(シーンカット)は、撮像装置100の撮像停止状態からの撮像開始時、撮影時のディゾルブやワイプ等の特殊効果映像の挿入、撮像装置100の素早いパンやズーム等のカメラワーク等により生じる。また、撮影後の編集によって、シーンカットが生じる場合もある。
キーフレームは、動画像データのうち代表的な一または複数の画像データである。キーフレームの画像は、シーンのテーマを表現した画像であることが望ましい。本実施形態であるキーフレーム抽出装置500は、動画像データにおけるキーフレームを精度よく抽出するものである。
A scene in a moving image obtained by shooting is, for example, a section of video in which the same subject is expressed with temporal continuity, and the theme (theme) intended by the photographer is expressed in the scene. There are many. Separation of two scenes that are connected (scene cut) includes the start of imaging from the imaging stop state of the imaging apparatus 100, insertion of special effect images such as dissolves and wipes at the time of imaging, quick panning and zooming of the imaging apparatus 100, etc. This is caused by camera work. Moreover, a scene cut may occur due to editing after shooting.
The key frame is one or more representative image data of the moving image data. The key frame image is preferably an image representing the theme of the scene. The key
サムネイル生成部550は、キーフレーム抽出装置500が抽出したキーフレームに基づいて、当該キーフレームに対応する画像データの解像度を縮小したサムネイル画像データ(縮小画像データ)を生成し、当該キーフレームを含む動画像データに関連付けて記憶媒体200に記憶させる。
The
操作部180は、電源スイッチ、シャッターボタン、十字キー、確定ボタン、キャンセルボタン、メニューボタン等の操作キーを有し、撮影者等の操作者による操作キーの操作にしたがって操作キー信号を発生させて制御部190に供給する。
画像処理部140は、記憶部160に記憶された画像処理条件に基づいて、バッファメモリ部130に記憶された画像データに対する画像処理を実行する。画像処理条件は、例えば、画像データ圧縮処理に関する条件であり、例えば、MPEG(Moving Picture Experts Goup)−4、Motion JPEG(Joint Photographic Experts Group)、MPEG−2等のデータ圧縮方式の指定や、データ圧縮の度合いの指定である。
バッファメモリ部130は、静止画像データ、動画像データ、圧縮静止画像データ、圧縮動画像データ等の各種画像に関するデータを一時記憶(バッファリング)する記憶部である。バッファメモリ部130は、例えば、A/D変換部120が出力する画像データ、制御部190が通信部170を介して記憶媒体200と受給する各種データ、画像処理部140がデータ圧縮処理および復号処理を実行する際に発生する各種データを記憶する。
The
The
The
表示部150は、例えば液晶ディスプレイ装置により実現され、撮像部110がとらえている画像を表示したり、画像処理部140が復号した静止画像データまたは動画像データを表示したり、各種メニューを表示したりする。
記憶部160は、制御部190が参照する撮像条件、画像処理部140が参照する画像処理条件等の情報を記憶する。
通信部170は、記憶媒体200と接続可能な接続インタフェースを有する。通信部170は、接続インタフェースに記憶媒体200が接続されている場合に、制御部190の制御に基づいて、記憶媒体200に対する圧縮静止画像データ、圧縮動画像データ等の書込み処理、読み込み処理、または消去処理等を実行する。
The
The
The
記憶媒体200は、例えばメモリカードにより実現される。記憶媒体200は、圧縮静止画像データおよび圧縮動画像データを記憶する。また、記憶媒体200は、動画像データに関連付けられたサムネイル画像データも記憶する。
The
次に、キーフレーム抽出装置500の構成について説明する。図2は、キーフレーム抽出装置500の機能構成を表すブロック図である。同図に示すように、キーフレーム抽出装置500は、シーン解析部510と、キーフレーム抽出部520と、特徴量解析部530と、分類処理部540とを備える。
キーフレーム抽出装置500は、制御部190によって記憶媒体200からバッファメモリ部130に読み出され、画像処理部140によって復号された動画像データを取り込むと、その動画像データをキーフレーム抽出装置500のシーン解析部510と特徴量解析部530とにそれぞれ供給する。
Next, the configuration of the key
When the moving image data read out from the
シーン解析部510は、供給された動画像データを取り込んで解析し、シーンカットタイミングを推定することによってシーンを検出する。シーン解析部510は、その機能構成として、時空間画像生成部511と、シーン検出部512とを備える。
The
時空間画像生成部511は、動画像データを所定の属性にしたがって正規化したのち、この正規化した動画像データ(正規化動画像データ)から、時間経過に伴うフレーム画像の画素値の変化を表す時空間画像データを生成する。所定の属性は、例えば、画像データの縦横比、解像度、色空間、フレームレートである。時空間画像生成部511が時空間画像データを生成する処理の詳細については後述する。
The spatiotemporal
シーン検出部512は、時空間画像生成部511が生成した時空間画像データを取り込み、この時空間画像データを解析してシーンカットタイミングを推定することによりシーンを検出する。シーン検出部512は、推定した全てのシーンカットタイミングに対応するフレーム画像のフレーム識別情報を抽出し、これらのフレーム識別情報と正規化動画像データとを対応付けてキーフレーム抽出部520に供給する。フレーム識別情報は、正規化動画像データを構成するフレーム画像を特定する情報、言い換えると、動画像データを構成する画像データを特定する情報であり、例えばタイムスタンプ情報である。タイムスタンプ情報は、例えば、“時:分:秒.フレーム番号”により表される。
シーン検出部512がシーンを検出する処理の詳細については後述する。
The
Details of the process in which the
キーフレーム抽出部520は、シーン解析部510のシーン検出部512から供給されるフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データから1個のキーフレームとなるフレーム画像を抽出し、この抽出したフレーム画像に対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
The key
本実施形態では、キーフレーム抽出部520は、動画の特性に関する以下の3つの仮定に基づいてキーフレームを抽出する。
仮定1:シーン内における構図の変化は小さい。
仮定2:シーンカット付近のフレーム画像は、テーマ性が高い画像ではない。
仮定3:動画のテーマは、シーン長が長いシーンに含まれている。
In the present embodiment, the key
Assumption 1: The compositional change in the scene is small.
Assumption 2: The frame image near the scene cut is not an image with high theme characteristics.
Assumption 3: The moving image theme is included in a scene having a long scene length.
仮定3および仮定1は、シーン長が長いシーンにおいては、撮影者が被写体に対する興味を持続したと推測することができることに基づく。また、仮定2は、シーン終了付近については、シーンに対する撮影者の興味が薄れてきたか、興味がなくなったか、フェードアウト等の特殊映像効果が作動しているか、撮影を終了する間際かといった状況にある可能性が高いことに基づく。また、仮定2は、シーン開始後直近については、撮影者が新たなシーンの構図を決定している最中か、フェードイン等の特殊映像効果が作動しているか、撮影を開始して間もないかといった状況にある可能性が高いことに基づく。
キーフフレーム抽出部520がキーフレームを抽出する方法については後述する。
Assumption 3 and Assumption 1 are based on the fact that in a scene with a long scene length, it can be assumed that the photographer has maintained interest in the subject. Assumption 2 is that, in the vicinity of the end of the scene, the photographer's interest in the scene has diminished, is no longer interested, whether special video effects such as fade-out are operating, or just before the end of shooting. Based on the high probability. Assumption 2 is that, immediately after the start of the scene, the photographer is determining the composition of a new scene, whether a special video effect such as fade-in is operating, It is based on the high possibility of being in a situation such as.
A method by which the key
特徴量解析部530は、動画像データとキーフレーム抽出部520から供給されるフレーム識別情報とをそれぞれ取り込み、そのフレーム識別情報に対応するフレーム画像から画像の特徴量(以下、単に“特徴量”と記載する。)を抽出してクラスタリング処理を実行する。
特徴量解析部530は、その機能構成として、画像正規化部531と、特徴量抽出部532と、クラスタリング処理部533とを備える。
The feature
The feature
画像正規化部531は、フレーム識別情報に対応する画像データを動画像データから抽出し、この抽出した画像データを所定の属性にしたがって正規化して正規化画像データを生成する。所定の属性は、例えば、フレーム画像の縦横比、解像度、色空間である。
具体的には、例えば、画像正規化部531は、キーフレームである画像データから輝度成分のみを抽出して輝度画像データを生成する。次に、画像正規化部531は、輝度画像データをフレーム画像の縦横比が4対3となる輝度画像データにトリミング処理する。例えば、縦横比が16対9、21対9、1対1等である輝度画像データを4対3の輝度画像データにトリミング処理する場合、トリミング前の輝度画像データの水平方向両端の矩形画像部分をカットして縦横比が4対3になるように合わせる。なお、トリミング前の輝度画像データの水平方向両端部に、無模様(例えば、黒色または灰色)の矩形枠を付加して縦横比を合わせるようにしてもよい。次に、画像正規化部531は、トリミング処理された輝度画像データをフィルタリング処理等によって解像度が水平方向320画素×垂直方向240画素である正規化画像データに変換する。
The
Specifically, for example, the
画像正規化部531を設けた理由は、フレーム画像の縦横比が異なるとキーフレームにおける被写体の密度が異なることとなり、また、解像度が異なるとキーフレームが有する情報量が異なることとなり、これらによってキーフレームが有する特徴量の評価に影響が出てしまうことを防ぐためである。
The reason for providing the
特徴量抽出部532は、画像正規化部531が生成した正規化画像データを取り込み、正規化画像データから特徴量を抽出する。例えば、特徴量抽出部532は、正規化画像データにおいて複数の画素を含む小領域ごとに輝度のガウス分布の状態を調べ、特徴点ごとのSIFT(Scale−Invariant Feature Transform)特徴量を求める。
The feature
クラスタリング処理部533は、特徴量抽出部532が抽出した正規化画像データの特徴量を取り込み、特徴点ごとの特徴量のクラスタリング処理(Bag−of−words処理)を実行して特徴量のヒストグラム(特徴量ヒストグラム)を生成する。クラスタリング処理部533は、例えば、K平均法によって正規化画像データの特徴量をK個(例えば、1000個)のクラスタに分類して特徴量ヒストグラムを生成する。
The
分類処理部540は、クラスタリング処理部533が生成した特徴量ヒストグラムを分析して正規化画像データ、すなわちキーフレームを分類し分類データを出力する。例えば、分類処理部540は、機械学習により特徴量の分類を学習し、その分類結果を分類データとして出力する。分類データは、区分に応じた識別情報や、あらかじめ学習によって決定しておいた“テニス試合”、“クッキー作り”、“サッカー”等のキーワード等である。分類処理部540は、例えば、サポートベクターマシン(Support Vector Machine)やニューラルネットワーク等によって特徴量の分類を学習する。
The
次に、時空間画像生成部511が時空間画像データを生成する処理について説明する。まず、時空間画像生成部511は、動画像データの画像データを間引く。例えば、時空間画像生成部511は、30フレーム/秒(fps;frame per second)のフレームレートを有する動画像データを、2フレーム/秒のフレームレートになるように画像データを間引く。ただし、この間引き処理は省略してもよい。次に、時空間画像生成部511は、間引き後の動画像データから輝度成分のみを抽出して輝度動画像データを生成する。次に、時空間画像生成部511は、輝度動画像データの各画像データを、例えばフレーム画像の縦横比が4対3となる画像データにトリミング処理する。トリミング処理は、前述した画像正規化部531における処理と同様の処理である。次に、時空間画像生成部511は、トリミング処理された輝度動画像データをフィルタリング処理等によって、例えば解像度が水平方向320画素×垂直方向240画素である正規化動画像データに変換する。次に、時空間画像生成部511は、正規化動画像データから時空間画像データを生成する。
Next, processing in which the spatiotemporal
図3は、時空間画像データを説明するための模式図である。同図(a)は、時空間画像データの元である正規化動画像データのフレーム構成を模式的に表した図である。同図(b)は、同図(a)に示した正規化動画像データに基づいて、時空間画像生成部511が生成した時空間画像データのデータ構成を模式的に表した図である。
同図(a)に示すように、正規化動画像データの属性は、フレーム画像の縦横比が4対3であり、解像度が水平方向320画素×垂直方向240画素であり、フレームレートが2フレーム/秒である。ここでは、再生時間が351秒である例を示している。1フレーム画像における水平ラインは、フレーム画像の上端から下端に向けてライン1,ライン2,・・・,ライン30と表される。
FIG. 3 is a schematic diagram for explaining the spatiotemporal image data. FIG. 4A is a diagram schematically showing a frame configuration of normalized moving image data that is the source of spatiotemporal image data. FIG. 6B is a diagram schematically showing the data configuration of the spatiotemporal image data generated by the spatiotemporal
As shown in FIG. 5A, the normalized moving image data has the following attributes: the frame image has an aspect ratio of 4: 3, the resolution is 320 pixels in the horizontal direction × 240 pixels in the vertical direction, and the frame rate is 2 frames. / Sec. Here, an example in which the reproduction time is 351 seconds is shown. The horizontal lines in one frame image are represented as line 1, line 2,..., Line 30 from the upper end to the lower end of the frame image.
時空間画像生成部511は、正規化動画像データを図3(b)のように、時間(フレーム位置)対空間座標に置き換えて二次元データである時空間画像データを生成する。言い換えると、時空間画像生成部511は、正規化動画像データのフレーム画像ごとに、ライン1からライン30までの画素値を空間座標軸方向に一列に配列して時空間画像データを生成する。同図(a)に示す正規化動画像データから得られる時空間画像データは、時間軸方向702フレーム×空間座標軸方向1200画素分の1個の画像データである。
The spatiotemporal
次に、シーン検出部512がシーンを検出する処理について説明する。シーン検出部512は、時空間画像データについて、例えば輝度勾配を計算することによって画像のエッジを検出する。例えば、シーン検出部512は、キャニー(Canny)法によって時空間画像データから画像のエッジを検出する。ここで検出される画像のエッジの直線方向は縦、横、および斜め方向を含んでいる。
次に、シーン検出部512は、検出した画像のエッジの中から、空間座標軸に平行な直線となるエッジを検出する。例えば、シーン検出部512は、ハフ(Hough)変換処理を実行することによって、検出した画像のエッジの中から空間座標軸に平行な直線成分のみを抽出する。
Next, processing in which the
Next, the
次に、シーン検出部512は、フレーム画像ごとに、当該フレーム画像がショットカットに該当するか否かを推定する。具体的には、シーン検出部512は、フレーム画像ごと(時間方向に1画素ごと)に空間座標方向の直線成分の総和を計算し、その総和が所定の閾値以上である場合は、当該フレーム画像はショットカットであると推定し、その総和が所定の閾値未満である場合は、当該フレーム画像はショットカットではないと推定する。推定されたショットカットはシーンカットタイミングの候補となる。所定の閾値は、任意に決定することができ、例えば、時空間画像データの空間座標方向の高さの割合で規定する。例えば、所定の閾値は、時空間画像データにおける時空間座標方向の高さの1/60(高さが1200画素である場合は20画素)である。
Next, the
次に、シーン検出部512は、ショットカットであると推定した直線成分から、単なるショットであって有効なシーンではないカットを除外する。この「ショットであって有効なシーンではないカット」とは、例えば、ディゾルブやワイプ等の特殊効果映像が該当する。具体的には、シーン検出部512は、ショットカットであると推定した直線成分において、時間方向に隣り合う2個の直線成分に挟まれた時間間隔が所定時間よりも短い場合の当該2個の直線成分の少なくとも一方を、シーンカットタイミングの候補から除外する。この所定時間は、任意に設定可能であるが、例えば2秒(図3(b)においては、時間方向に4画素分)である。
Next, the
次に、シーン検出部512は、シーンカットタイミングの候補として残っている全ての直線成分に対応するフレーム画像のフレーム識別情報と正規化動画像データとを出力する。
Next, the
次に、キーフレーム抽出部520がキーフレームを抽出する処理について図4を併せ参照して説明する。図4は、キーフレーム抽出部520が正規化動画像データの中からキーフレームを抽出する様子を模式的に表した図である。シーン抽出部520は、シーン解析部510のシーン検出部512が出力したフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データにおける各シーンのシーン長を計算する。このシーン長は、時間長またはフレーム数である。つまり、フレーム識別情報に対応するフレーム画像がシーンの最初のフレーム画像であることに基づいて、シーン抽出部520は、各シーンのシーン長を計算する。例えば、同図(a)に示すシーン構成である場合、フレーム識別情報に対応するフレーム画像は各シーンの最初のフレーム画像であり、キーフレーム抽出部520は、第1番目のシーン(シーン1)から第5番目のシーン(シーン5)までの各シーンのフレーム数を、10フレーム、6フレーム、15フレーム、12フレーム、および4フレームとして計数する。
Next, processing in which the key
次に、キーフレーム抽出部520は、前述した仮定3にしたがい、シーンの中から最もシーン長が長い(フレーム数が多い)シーンを検出する。例えば、キーフレーム抽出部520は、各シーンのフレーム数を比較することにより、最もフレーム数が多いシーンとして、図4(b)に示すように第3番目のシーン(シーン3:15フレーム)を検出する。
次に、キーフレーム抽出部520は、正規化動画像データのうち、検出した1個のシーンに対応するフレーム画像から所定範囲の輝度値を有するフレーム画像を検出する。具体的には、キーフレーム抽出部520は、正規化動画像データのうち、検出した1個のシーンに対応するフレーム画像から、平均輝度値が第1の閾値よりも低い低輝度フレーム画像、もしくは平均輝度値が第2の閾値(第2の閾値>第1の閾値)よりも高い高輝度フレーム画像、または低輝度フレーム画像および高輝度フレーム画像を検出する。同図(b)は、第3番目のシーン(シーン3)に対応する15フレームのフレーム画像から、4つの低輝度フレーム画像および高輝度フレーム画像を検出した例を示している。
Next, the key
Next, the key
次に、キーフレーム抽出部520は、低輝度フレーム画像もしくは高輝度フレーム画像または低輝度フレーム画像および高輝度フレーム画像を除いたフレーム画像の中から、前述した仮定2にしたがい、時系列的に中央または中央近傍(例えば、時系列中心に最も近い)の1個のフレーム画像をキーフレームとして抽出する。このように、低輝度フレーム画像や高輝度フレーム画像を除く理由は、これらのフレーム画像は、一般的に見づらく、また後段の特徴量解析部530において特徴量を検出し難いためである。図4(c),(d)は、キーフレーム抽出部520が、11フレームのフレーム画像の中から、時系列中心のフレーム画像である左から6番目のフレーム画像をキーフレームとして抽出した例を示している。
次に、キーフレーム抽出部520は、抽出したキーフレームに対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
Next, the key
Next, the key
図5は、キーフレーム抽出部520が抽出したキーフレームの画像の例である。同図(a)は、撮像装置100がテニスの試合の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データには、同図(a)に示すような、手前側と奥側との二人のテニス選手がラリーを続けているシーンが、最も時間が長いシーンとして含まれている。
また、同図(b)は、撮像装置100がクッキーを作っている少女の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データには、同図(b)に示すような、少女の手元がフレーム画像から外れて見えない構図のシーンが、最も時間が長いシーンとして含まれている。
FIG. 5 is an example of a key frame image extracted by the key
FIG. 5B shows a key frame image extracted by the key
次に、本実施形態であるキーフレーム抽出装置500の主要な動作について説明する。図6は、キーフレーム抽出装置500の動作手順を表すフローチャートである。
キーフレーム抽出装置500が動画像データを取り込むと、ステップS1において、シーン解析部510の時空間画像生成部511は、動画像データの画像データを間引いたのち、間引き後の動画像データを所定の属性にしたがって正規化した正規化動画像データを生成する。例えば、時空間画像生成部511は、図3(a)のように、水平方向320画素×垂直方向240画素の解像度で、2フレーム/秒のフレームレートで、輝度情報により表現される正規化動画像データを生成する。
次に、時空間画像生成部511は、正規化動画像データを時間(フレーム位置)対空間座標に置き換えて、二次元データである時空間画像データを生成する。例えば、時空間画像生成部511は、同図(a)に示す正規化動画像データから、同図(b)のように、時間方向702フレーム×空間座標方向1200画素分の時空間画像データを生成する。
Next, main operations of the key
When the key
Next, the spatiotemporal
次に、ステップS2において、シーン検出部512は、時空間画像生成部511が生成した時空間画像データを取り込み、この時空間画像データを解析してシーンカットタイミングを推定することによってシーンを検出する。具体的には、シーン検出部512は、時空間画像データについて、例えば輝度勾配を計算することによって画像のエッジを検出する。
次に、シーン検出部512は、検出した画像のエッジの中から、空間座標方向に直線となるエッジを検出する。
次に、シーン検出部512は、フレーム画像ごとに、当該フレーム画像がショットカットに該当するか否かを推定する。具体的には、シーン検出部512は、フレーム画像ごとに、空間座標方向の直線成分の総和を計算し、その総和が所定の閾値以上である場合は、当該フレーム画像はショットカットであると推定し、その総和が所定の閾値未満である場合は、当該フレーム画像はショットカットではないと推定する。
次に、シーン検出部512は、ショットカットであると推定した直線成分(シーンカットタイミングの候補)から、単なるショットであって有効なシーンではないカットを除外する。具体的には、シーン検出部512は、ショットカットであると推定した直線成分において、時間方向に隣り合う2個の直線成分に挟まれた時間間隔が所定時間よりも短い場合の当該2個の直線成分の少なくとも一方を、シーンカットタイミングの候補から除外する。
次に、シーン検出部512は、シーンカットタイミングの候補として残っている全ての直線成分に対応するフレーム画像のフレーム識別情報と正規化動画像データとを対応付けてキーフレーム抽出部520に供給する。
In step S2, the
Next, the
Next, the
Next, the
Next, the
次に、ステップS3において、キーフレーム抽出部520は、シーン検出部512から供給されるフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データから1個のキーフレームとなるフレーム画像に対応するフレーム識別情報を抽出して特徴量解析部530に供給する。具体的には、シーン抽出部520は、フレーム識別情報と正規化動画像データとに基づいて、正規化動画像データにおける各シーンのシーン長を計算する。
次に、キーフレーム抽出部520は、シーンの中から最もシーン長が長いシーンを検出する。
次に、キーフレーム抽出部520は、正規化動画像データのうち、検出した1個のシーンに対応するフレーム画像から所定範囲の輝度値を有するフレーム画像を検出する。具体的には、キーフレーム抽出部520は、正規化動画像データのうち、検出した1個のシーンに対応するフレーム画像から、平均輝度値が第1の閾値よりも低い低輝度フレーム画像、もしくは平均輝度値が第2の閾値よりも高い高輝度フレーム画像、または低輝度フレーム画像および高輝度フレーム画像を検出する。
次に、キーフレーム抽出部520は、低輝度フレーム画像もしくは高輝度フレーム画像または低輝度フレーム画像および高輝度フレーム画像を除いたフレーム画像の中から、時系列的に中央または中央近傍の1個のフレーム画像をキーフレームとして抽出する。
次に、キーフレーム抽出部520は、抽出したキーフレームに対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
Next, in step S3, the key
Next, the key
Next, the key
Next, the key
Next, the key
次に、ステップS4において、特徴量解析部530の画像正規化部531は、動画像データとキーフレーム抽出部520から供給されるフレーム識別情報とをそれぞれ取り込み、フレーム識別情報に対応する画像データを動画像データから抽出する。
次に、画像正規化部531は、抽出した画像データを所定の属性にしたがって正規化した正規化画像データを生成する。例えば、画像正規化部531は、水平方向320画素×垂直方向240画素の解像度で、輝度情報により表現される正規化画像データを生成する。
次に、ステップS5において、特徴量抽出部532は、画像正規化部531が生成した正規化画像データを取り込み、正規化画像データから特徴量を抽出する。
次に、ステップS6において、クラスタリング処理部533は、特徴量抽出部532から供給された正規化画像データの特徴量のクラスタリング処理を実行して特徴量ヒストグラムを生成する。
Next, in step S4, the
Next, the
Next, in step S5, the feature
Next, in step S <b> 6, the
次に、ステップS7において、分類処理部540は、クラスタリング処理部533が生成した特徴量ヒストグラムを取り込み、この特徴量ヒストグラムを分析して正規化画像データ、すなわちキーフレームを分類し、その分類結果を分類データとして出力する。
In step S7, the
次に、キーフレーム抽出装置500を適用した撮像装置100の主要な動作について説明する。まず、撮像装置100が、キーフレーム抽出装置500のキーフレーム抽出結果に基づいて、記憶媒体200に記憶された圧縮動画像データにおけるキーフレームのサムネイル画像データを生成する処理について説明する。
キーフレーム抽出装置500がキーフレームを抽出してこのキーフレームに対応するフレーム識別情報を出力すると、制御部190のサムネイル生成部550は、そのフレーム識別情報を取り込む。
次に、サムネイル生成部550は、フレーム識別情報に対応する画像データを、記憶媒体200またはバッファメモリ部130から抽出して取り込む。
次に、サムネイル生成部550は、取り込んだ画像データの解像度を縮小したサムネイル画像データを生成する。
次に、サムネイル生成部550は、生成したサムネイル画像データを対応する圧縮動画像データに関連付けて記憶媒体200に記憶させる。なお、サムネイル画像データを、対応する圧縮動画像データのヘッダ部分に格納してもよい。
Next, main operations of the imaging apparatus 100 to which the key
When the key
Next, the
Next, the
Next, the
なお、サムネイル生成部550は、キーフレーム抽出装置500が出力した分類データをも取り込み、その分類データ(例えば、“テニス試合”や“クッキー作り”等のキーワード)を、サムネイル画像データとともに圧縮動画像データに関連付けて記憶媒体200に記憶させてもよい。
また、制御部190は、分類データに基づいて記憶媒体200に記憶された圧縮動画像データを整理(例えば、ディレクトリ管理)してもよい。
Note that the
Further, the
次に、記憶媒体200に記憶された、サムネイル画像データが関連付けられた圧縮動画像データの一覧を表示部150に表示させる処理について説明する。
操作者による操作部180の操作により、操作部180が、記憶媒体200に記憶されている圧縮動画像データの一覧を表示部150に表示させるための操作信号を出力すると、制御部190はその操作信号を取り込む。
次に、制御部190は、圧縮動画像データに関連付けられたサムネイル画像データと、圧縮動画像データが格納されている電子ファイルのファイル名とを記憶媒体200から読み込んで表示部150に表示させる。
Next, processing for displaying a list of compressed moving image data associated with thumbnail image data stored in the
When the
Next, the
図7は、表示部150に表示された圧縮動画像データの一覧を模式的に表した図である。同図において、表示部150の表示画面600には、3個の圧縮動画像データの一覧が表示されており、サムネイル画像601,602,603と、サムネイル画像601,602,603にそれぞれ関係付けられた圧縮動画像データの電子ファイルのファイル名である、“20101103.mp4”,“20101105.mp4”,“20101112.mp4”が表示されている。そして、同図においては、サムネイル画像601にカーソル604が表示されている。操作部180の十字キーの操作によってカーソル604はサムネイル画像601,602,603上を移動可能である。そして、確定ボタンが操作されることによって、制御部190は、カーソル604が指示するサムネイル画像データに関連付けられた圧縮動画像データを選択する。
FIG. 7 is a diagram schematically showing a list of compressed moving image data displayed on the
以上説明したように、本発明の第1実施形態であるキーフレーム抽出装置500では、シーン解析部510が動画像データのシーンを検出し、キーフレーム抽出部520が、シーン長が最も長いシーンから時系列的に中央または中央近傍の1個のフレーム画像をキーフレームとして抽出するようにした。このように構成したことにより、キーフレーム抽出装置500は、動画の特性に関する“動画のテーマは、シーン長が長いシーンに含まれている。”(仮定3)と、“シーンカット付近のフレーム画像は、テーマ性が高い画像ではない。”(仮定2)とを満足させて、キーフレームを精度よく抽出することができる。特に、キーフレーム抽出装置500は、動画の特性を考慮してキーフレームを抽出するため、演算処理の負荷が軽く低コストに実現することができる。
As described above, in the key
また、このキーフレーム抽出装置500では、特徴量解析部530がキーフレームである画像データを正規化して画像の特徴量を抽出し、特徴量をクラスタリング処理して特徴量の特性を表す特徴量ヒストグラムを生成するようにした。また、このキーフレーム抽出装置500は、特徴量ヒストグラムを機会学習して分類し分類データを出力するようにした。このように構成したことにより、キーフレーム抽出装置500は、抽出したキーフレームである画像データを、画像の特徴に応じて機動的に分類することができる。よって、キーフレーム抽出装置500を備える撮像装置100は、キーフレームおよび分類データまたはいずれか一方の情報を適用して、保持する動画像データを視覚的に見易くまた検索容易に管理することができる。
In the key
[第1実施形態の第1の変形例]
上述した第1実施形態では、キーフレーム抽出部520は、仮定3および仮定2にしたがって、正規化動画像データにおける最もシーン長が長いシーンから1個のキーフレームとなるフレーム画像を抽出した。本実施形態の第1変形例では、キーフレーム抽出部520が、正規化動画像データにおける最もシーン長が長いシーンからキーフレームとなる複数のフレーム画像を抽出する例について説明する。本変形例におけるキーフレーム抽出部520は、仮定3および仮定2に加えて仮定1をも考慮に入れてキーフレームを抽出するものである。
[First Modification of First Embodiment]
In the first embodiment described above, the key
本変形例において、第1実施形態と相違する構成は、キーフレーム抽出部520と、特徴量解析部530の主にクラスタリング処理部533と、サムネイル生成部550とである。本変形例における全体的な機能構成は第1実施形態と同一であるため、本変形例では、ブロック図を省略し、第1実施形態における各構成と同一の符号を付した構成を用いて説明する。そして、本変形例では、第1実施形態との相違点についてのみ説明する。
In the present modification, the configuration different from the first embodiment is a key
キーフレーム抽出部520は、シーン解析部510のシーン検出部512から供給されるフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データからキーフレームとなるN個(Nは2以上の整数)のフレーム画像を抽出し、これら抽出したN個のフレーム画像に対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
The key
キーフレーム抽出部520がN個のキーフレームを抽出する処理について図8を併せ参照して説明する。図8は、キーフレーム抽出部520が正規化動画像データの中からN個(N=3)のキーフレームを抽出する様子を模式的に表した図である。同図(a),(b)は、第1実施形態における図4(a),(b)と同一であり、キーフレーム抽出部520による処理も同一であるため、図8(c)に対応する処理以降について説明する。
A process in which the key
キーフレーム抽出部520は、低輝度フレーム画像もしくは高輝度フレーム画像または低輝度フレーム画像および高輝度フレーム画像を除いたフレーム画像の中から、前述した仮定2および仮定1にしたがい、等間隔にN個のフレーム画像をキーフレームとして抽出する。この場合、キーフレーム抽出部520は、仮定2にしたがって、シーンの少なくとも両端に対応するフレーム画像を抽出しないようにする。具体的には、キーフレーム抽出部520は、下記の式(1)または式(2)を計算することによって、抽出するフレーム画像の間隔を決定する。式(1),式(2)において、Dは抽出するフレーム画像の間隔を示す値、Fはシーンにおけるフレーム画像の数、Nは抽出するキーフレームの数である。
The key
キーフレーム抽出部520は、シーンの少なくとも両端に対応するフレーム画像を抽出しないようにするため、シーンにおけるフレーム画像の数Fが抽出するキーフレームの数Nで割り切れない場合は、式(1)により値Dを計算する。一方、キーフレーム抽出部520は、シーンにおけるフレーム画像の数Fが抽出するキーフレームの数Nで割り切れる場合は、式(2)により値Dを計算する。
なお、値Dが2未満の値である場合、キーフレーム抽出部520は、シーン長が次に長いシーンに対応するフレーム画像をつなげて式(1)または式(2)を計算する。
In order not to extract frame images corresponding to at least both ends of the scene, the key
When the value D is less than 2, the key
キーフレーム抽出部520は、フレーム画像の配列の端から数えてD番目、次は、その位置から数えてD番目という順序でフレーム画像を抽出する。図8(c),(d)の例では、キーフレーム抽出部520は、式(1)によりD=3を算出し、11フレームの端から数えて3番目、その位置から数えて3番目、さらにその位置から数えて3番目にそれぞれ該当するフレーム画像をキーフレームとして抽出する。
The key
次に、キーフレーム抽出部520は、抽出したN個のキーフレームに対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
Next, the key
図9は、キーフレーム抽出部520が抽出した複数(N=3)のキーフレームの画像の例である。同図(a)は、撮像装置100がテニスの試合の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データには、同図(a)に示すような、略一定したカメラアングルで撮影されたシーンが、最も時間が長いシーンとして含まれている。
また、同図(b)は、撮像装置100がクッキーを作っている少女の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データにも、同図(b)に示すような、略一定したカメラアングルで撮影されたシーン(少女の手元がフレーム画像から外れて見えない構図のシーン)が、最も時間が長いシーンとして含まれている。
同図(a),(b)それぞれの3個のキーフレームの画像は、左側から右側に向けて時系列的に並べたものである。
FIG. 9 is an example of a plurality (N = 3) of key frame images extracted by the key
FIG. 5B shows a key frame image extracted by the key
The images of the three key frames in FIGS. 4A and 4B are arranged in time series from the left side to the right side.
特徴量解析部530は、動画像データとキーフレーム抽出部520から供給されるN個のフレーム識別情報とをそれぞれ取り込み、フレーム識別情報ごとに、フレーム識別情報に対応するフレーム画像から特徴量を抽出してクラスタリング処理を実行する。
画像正規化部531は、フレーム識別情報ごとに、フレーム識別情報に対応する画像データを動画像データから抽出し、この抽出した画像データを所定の属性にしたがって正規化して正規化画像データを生成する。画像正規化部531の詳細な処理は第1実施形態と同様であるため、その説明を省略する。
特徴量抽出部532は、画像正規化部531が生成したN個の正規化画像データを取り込み、正規化画像データごとに、正規化画像データから特徴量を抽出する。特徴量抽出部532の詳細な処理は第1実施形態と同様であるため、その説明を省略する。
The feature
For each frame identification information, the
The feature
クラスタリング処理部533は、特徴量抽出部532が抽出したN個の正規化画像データの特徴量を取り込み、正規化画像データごと且つ特徴点ごとに、特徴量のクラスタリング処理(Bag−of−words処理)を実行して特徴量ヒストグラムを生成する。クラスタリング処理部533は、例えば、K平均法によって正規化画像データの特徴量をK個(例えば、1000個)のクラスタに分類して特徴量ヒストグラムを生成する。次に、クラスタリング処理部533は、生成したN個の特徴量ヒストグラムをクラスごとに加算して統合ヒストグラムを生成する。この統合ヒストグラムは、キーフレームが含まれるシーンの動画の特性を表すヒストグラムである。
The
図10は、図9(a)における3個のキーフレームの画像それぞれの特徴量ヒストグラムと、クラスタリング処理部533がこれら3個の特徴量ヒストグラムをクラスごとに加算して生成した統合ヒストグラムとを模式的に表した図である。同図に示すように、画像の特性の類似性が比較的高い3個のキーフレームの画像の特徴量ヒストグラムを加算することにより、特徴的な分布が強調される。言い換えると、動画のテーマが強調される。
FIG. 10 schematically illustrates the feature amount histograms of the three key frame images in FIG. 9A and the integrated histogram generated by the
分類処理部540は、クラスタリング処理部533が生成した統合ヒストグラムを分析して正規化画像データ、すなわちキーフレームを分類する。分類処理部540の詳細な処理は第1実施形態と同様であるため、その説明を省略する。
The
次に、キーフレーム抽出装置500を適用した撮像装置100の主要な動作について説明する。まず、撮像装置100が、キーフレーム抽出装置500のキーフレーム抽出結果に基づいて、記憶媒体200に記憶された圧縮動画像データにおけるキーフレームのサムネイル画像データを生成する処理について説明する。
キーフレーム抽出装置500がN個のキーフレームを抽出してこれらキーフレームに対応するフレーム識別情報を出力すると、制御部190のサムネイル生成部550は、N個のキーフレームに対応するフレーム識別情報を取り込む。
次に、サムネイル生成部550は、N個のフレーム識別情報に対応する画像データを、記憶媒体200またはバッファメモリ部130から抽出して取り込む。
次に、サムネイル生成部550は、取り込んだN個の画像データそれぞれについて、解像度を縮小したサムネイル画像データを生成する。
次に、サムネイル生成部550は、生成したN個のサムネイル画像データを対応する圧縮動画像データに関連付けて記憶媒体200に記憶させる。なお、N個のサムネイル画像データを、対応する圧縮動画像データのヘッダ部分に格納してもよい。
Next, main operations of the imaging apparatus 100 to which the key
When the key
Next, the
Next, the
Next, the
次に、記憶媒体200に記憶された、N個のサムネイル画像データが関連付けられた圧縮動画像データの一覧を表示部150に表示させる処理について説明する。
操作者による操作部180の操作により、操作部180が、記憶媒体200に記憶されている圧縮動画像データの一覧を表示部150に表示させるための操作信号を出力すると、制御部190はその操作信号を取り込む。
次に、制御部190は、圧縮動画像データに関連付けられたN個のサムネイル画像データと、圧縮動画像データが格納されている電子ファイルのファイル名とを記憶媒体200から読み込んで表示部150に表示させる。制御部190は、N個のサムネイル画像データの表示部150への表示を、例えば次の二通りの方法のいずれかによって実現する。
Next, processing for displaying a list of compressed moving image data associated with N thumbnail image data stored in the
When the
Next, the
第1の方法は、N個のサムネイル画像データを表示部150に並べて表示する方法である。N個のサムネイル画像データが並ぶ順番は、例えば時系列である。
第2の方法は、N個のサムネイル画像データを表示部150の同一座標に所定の時間おきに順次切り替えて表示する方法である。サムネイル画像データの表示の時間間隔は、任意に設定でき、例えば“1秒”である。
The first method is a method of displaying N thumbnail image data side by side on the
The second method is a method of sequentially switching and displaying N thumbnail image data at the same coordinates on the
図11は、表示部150に表示された圧縮動画像データの一覧を模式的に表した図である。同図(a)は上記の第1の方法による表示例であり、同図(b)は上記の第2の方法による表示例である。同図(a)において、表示部150の表示画面610には、4個の圧縮動画像データの一覧が表示されており、圧縮動画像データごとに、サムネイル画像データが横並びに配列して表示されている。4個の圧縮動画像データの一覧のうち最上段に注目すると、3個のサムネイル画像611a,611b,611cと、サムネイル画像611a,611b,611cに関係付けられた圧縮動画像データの電子ファイルのファイル名である、“20101103.mp4”が表示されている。そして、同図においては、サムネイル画像611a,611b,611cを囲んでカーソル612が表示されている。操作部180の十字キーの操作によってカーソル612は表示画面610の上下方向に移動可能である。そして、確定ボタンが操作されることによって、制御部190は、カーソル612が指示するサムネイル画像データに関連付けられた圧縮動画像データを選択する。
FIG. 11 is a diagram schematically showing a list of compressed moving image data displayed on the
図11(b)において、表示部150の表示画面620には、3個の圧縮動画像データの一覧が表示されており、時分割切り替えのサムネイル画像621,622,623と、時分割切り替えのサムネイル画像621,622,623にそれぞれ関係付けられた圧縮動画像データの電子ファイルのファイル名である、“20101103.mp4”,“20101105.mp4”,“20101112.mp4”が表示されている。時分割切り替えのサムネイル画像621,622,623それぞれは、所定の時間おき(例えば1秒おき)にサムネイル画像データが切り替わる。そして、同図においては、時分割切り替えのサムネイル画像621にカーソル624が表示されている。操作部180の十字キーの操作によって、カーソル624は、時分割切り替えのサムネイル画像621,622,623上を移動可能である。そして、確定ボタンが操作されることによって、制御部190は、カーソル624が指示する時分割切り替えのサムネイル画像データに関連付けられた圧縮動画像データを選択する。
In FIG. 11B, a list of three compressed moving image data is displayed on the display screen 620 of the
以上説明したように、本発明の第1実施形態の第1変形例であるキーフレーム抽出装置500では、シーン解析部510が動画像データのシーンを検出し、キーフレーム抽出部520が、シーン長が最も長いシーンから、シーンの少なくとも両端に対応するフレーム画像を含めずに複数のフレーム画像をキーフレームとして抽出するようにした。このように構成したことにより、キーフレーム抽出装置500は、動画の特性に関する“動画のテーマは、シーン長が長いシーンに含まれている。”(仮定3)と、“シーンカット付近のフレーム画像は、テーマ性が高い画像ではない。”(仮定2)とに加えて、“シーン内における構図の変化は小さい。”(仮定1)を満足させて、テーマ性をより強調したキーフレームを精度よく抽出することができる。
As described above, in the key
[第1実施形態の第2の変形例]
第1実施形態の第2変形例では、キーフレーム抽出部520が、正規化動画像データにおけるシーンをシーン長が長い順に複数選択し、シーンごとに、キーフレームとなる1個のフレーム画像を抽出する例について説明する。本変形例におけるキーフレーム抽出部520は、仮定3および仮定2にしたがい、特に複数のテーマを考慮してキーフレームを抽出するものである。
[Second Modification of First Embodiment]
In the second modified example of the first embodiment, the key
本変形例において、第1変形例と相違する構成はキーフレーム抽出部520である。本変形例における全体的な機能構成は第1実施形態と同一であるため、本変形例では、ブロック図を省略し、第1実施形態における各構成と同一の符号を付した構成を用いて説明する。そして、本変形例では、第1変形例との相違点についてのみ説明する。
In this modification, a configuration different from the first modification is a key
キーフレーム抽出部520は、シーン解析部510のシーン検出部512から供給されるフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データにおけるシーンをシーン長が長い順にM個(Mは2以上の整数)選択し、シーンごとに、キーフレームとなる1個のフレーム画像を抽出し、これら抽出したM個のフレーム画像に対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
The key
キーフレーム抽出部520がM個のキーフレームを抽出する処理について図12を併せ参照して説明する。図12は、キーフレーム抽出部520が正規化動画像データの中からM個(M=3)のキーフレームを抽出する様子を模式的に表した図である。同図(a)は、第1実施形態における図4(a)と同一であり、キーフレーム抽出部520による処理も同一であるため、図12(b)に対応する処理以降について説明する。
A process in which the key
キーフレーム抽出部520は、前述した仮定3にしたがい、シーンの中からシーン長が長い(フレーム数が多い)順にM個のシーンを検出する。例えば、キーフレーム抽出部520は、各シーンのフレーム数を比較することにより、フレーム数が多い順に、図12(b)に示すように第3番目のシーン(シーン3:15フレーム)と第4番目のシーン(シーン4:12フレーム)と第1番目のシーン(シーン1:10フレーム)とを検出する。
次に、キーフレーム抽出部520は、検出したシーンごとに、正規化動画像データのうち、シーンに対応するフレーム画像から所定範囲の輝度値を有するフレーム画像を検出する。具体的には、キーフレーム抽出部520は、正規化動画像データのうち、検出した1個のシーンに対応するフレーム画像から、平均輝度値が第1の閾値よりも低い低輝度フレーム画像、もしくは平均輝度値が第2の閾値(第2の閾値>第1の閾値)よりも高い高輝度フレーム画像、または低輝度フレーム画像および高輝度フレーム画像を検出する。同図(b)は、第3番目のシーン(シーン3)に対応するフレーム画像から4つの低輝度フレーム画像および高輝度フレーム画像を検出し、第4番目のシーン(シーン4)に対応するフレーム画像から5つの低輝度フレーム画像および高輝度フレーム画像を検出し、第1番目のシーン(シーン1)に対応するフレーム画像から3個の低輝度フレーム画像および高輝度フレーム画像を検出した例を示している。
The key
Next, the key
次に、キーフレーム抽出部520は、検出したシーンごとに、低輝度フレーム画像もしくは高輝度フレーム画像または低輝度フレーム画像および高輝度フレーム画像を除いたフレーム画像の中から、前述した仮定2にしたがい、時系列的に中央または中央近傍(例えば、時系列中心に最も近い)1個のフレーム画像をキーフレームとして抽出する。図12(c),(d)は、キーフレーム抽出部520が、第3番目のシーン(シーン3)に対応するフレーム画像の中から、時系列中心のフレーム画像である左から6番目のフレーム画像をキーフレームとして抽出した例を示している。また、図12(c),(d)は、キーフレーム抽出部520が、第4番目のシーン(シーン4)に対応するフレーム画像の中から、時系列中心のフレーム画像である左から4番目のフレーム画像をキーフレームとして抽出した例を示している。また、図12(c),(d)は、キーフレーム抽出部520が、第1番目のシーン(シーン1)に対応するフレーム画像の中から、時系列中心のフレーム画像である左から4番目のフレーム画像をキーフレームとして抽出した例を示している。
次に、キーフレーム抽出部520は、抽出したM個のキーフレームに対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
Next, for each detected scene, the key
Next, the key
図13は、キーフレーム抽出部520が抽出した複数(M=3)のキーフレームの画像の例である。同図(a)は、撮像装置100がテニスの試合の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データには、同図(a)に示すような、時間が長いシーンとして、構図や被写体が異なるシーンが含まれている。
また、同図(b)は、撮像装置100がクッキーを作っている少女の様子を撮影した動画像データを用いて、キーフレーム抽出装置500が抽出したキーフレームの画像である。この動画像データにも、同図(b)に示すような、時間が長いシーンとして、構図や被写体が異なるシーンが含まれている。第1実施形態および第1変形例では、少女の手元がフレーム画像から外れて見えない構図のシーンしか検出できなかったが、本変形例によれば、その他の構図のシーン(クッキーが写ったシーン等)が検出できている。
同図(a),(b)それぞれの3個のキーフレームの画像は、左側から右側に向けてシーン長が長い順に並べたものである。
FIG. 13 shows an example of a plurality (M = 3) of key frame images extracted by the key
FIG. 5B shows a key frame image extracted by the key
The images of the three key frames in each of FIGS. 9A and 9B are arranged in order of increasing scene length from the left side to the right side.
図14は、図13(a)における3個のキーフレームの画像それぞれの特徴量ヒストグラムと、クラスタリング処理部533がこれら3個の特徴量ヒストグラムをクラスごとに加算して生成した統合ヒストグラムとを模式的に表した図である。同図に示すように、画像の特性がそれぞれ比較的大きく異なる3個のキーフレームの画像の特徴量ヒストグラムを加算することにより、各シーンの特徴的な分布を網羅した分布を得ることができる。言い換えると、動画のテーマをもらすことなく把握することができる。
FIG. 14 schematically illustrates the feature amount histograms of the three key frame images in FIG. 13A and the integrated histogram generated by the
以上説明したように、本発明の第1実施形態の第2変形例であるキーフレーム抽出装置500では、シーン解析部510が動画像データのシーンを検出し、キーフレーム抽出部520が、シーン長が長い順に複数のシーンを選択し、シーンごとに、時系列的に中央または中央近傍の1個のフレーム画像をキーフレームとして抽出するようにした。このように構成したことにより、キーフレーム抽出装置500は、動画の特性に関する“動画のテーマは、シーン長が長いシーンに含まれている。”(仮定3)と、“シーンカット付近のフレーム画像は、テーマ性が高い画像ではない。”(仮定2)とを満足させ、複数のテーマを考慮したキーフレームを精度よく抽出することができる。
As described above, in the key
[第1実施形態の第3の変形例]
第1実施形態の第3変形例では、キーフレーム抽出部520が、正規化動画像データにおけるシーンをシーン長が長い順に複数選択し、シーンごとに、キーフレームとなる複数のフレーム画像を抽出する例について説明する。本変形例におけるキーフレーム抽出部520は、仮定3および仮定2にしたがい、特に複数のテーマを考慮してキーフレームを抽出するものである。
[Third Modification of First Embodiment]
In the third modification example of the first embodiment, the key
本変形例において、第2変形例と相違する構成はキーフレーム抽出部520である。本変形例における全体的な機能構成は第1実施形態と同一であるため、本変形例では、ブロック図を省略し、第1実施形態における各構成と同一の符号を付した構成を用いて説明する。そして、本変形例では、第2変形例との相違点についてのみ説明する。
In this modification, a configuration different from the second modification is a key
キーフレーム抽出部520は、シーン解析部510のシーン検出部512から供給されるフレーム識別情報と正規化動画像データとを取り込み、正規化動画像データにおけるシーンをシーン長が長い順にM個(Mは2以上の整数)選択し、シーンごとに、キーフレームとなるN個(Nは2以上の整数)のフレーム画像を抽出し、これら抽出したM×N個のフレーム画像に対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
The key
キーフレーム抽出部520がM×N個のキーフレームを抽出する処理について図15を併せ参照して説明する。図15は、キーフレーム抽出部520が正規化動画像データの中からM×N個(M×N=3×3)のキーフレームを抽出する様子を模式的に表した図である。同図(a),(b)は、第2変形例における図12(a),(b)と同一であり、キーフレーム抽出部520による処理も同一であるため、図15(c)に対応する処理以降について説明する。
A process in which the key
キーフレーム抽出部520は、検出したシーンごとに、低輝度フレーム画像もしくは高輝度フレーム画像または低輝度フレーム画像および高輝度フレーム画像を除いたフレーム画像の中から、前述した仮定2および仮定1にしたがい、等間隔にN個のフレーム画像をキーフレームとして抽出する。N個のキーフレームを抽出する方法は、前述した第1変形例と同様であるため、ここでの説明を省略する。図15(c),(d)では、キーフレーム抽出部520は、第3番目のシーン(シーン3)について式(1)によりD=3を算出し、11フレームの端から数えて3番目、その位置から数えて3番目、さらにその位置から数えて3番目にそれぞれ該当するフレーム画像をキーフレームとして抽出する。また、図15(c),(d)では、キーフレーム抽出部520は、第4番目のシーン(シーン4)について式(1)によりD=2を算出し、7フレームの端から数えて2番目、その位置から数えて2番目、さらにその位置から数えて2番目にそれぞれ該当するフレーム画像をキーフレームとして抽出する。また、図15(c),(d)では、キーフレーム抽出部520は、第1番目のシーン(シーン1)について式(1)によりD=2を算出し、7フレームの端から数えて2番目、その位置から数えて2番目、さらにその位置から数えて2番目にそれぞれ該当するフレーム画像をキーフレームとして抽出する。
次に、キーフレーム抽出部520は、抽出したM×N個のキーフレームに対応するフレーム識別情報を、制御部190のサムネイル生成部550に供給するとともに特徴量解析部530に供給する。
For each detected scene, the key
Next, the key
以上説明したように、本発明の第1実施形態の第3変形例であるキーフレーム抽出装置500では、シーン解析部510が動画像データのシーンを検出し、キーフレーム抽出部520が、シーン長が長い順に複数のシーンを選択し、シーンごとに、シーンの少なくとも両端に対応するフレーム画像を含めずに複数のフレーム画像をキーフレームとして抽出するようにした。このように構成したことにより、キーフレーム抽出装置500は、動画の特性に関する“動画のテーマは、シーン長が長いシーンに含まれている。”(仮定3)と、“シーンカット付近のフレーム画像は、テーマ性が高い画像ではない。”(仮定2)とに加えて、“シーン内における構図の変化は小さい。”(仮定1)を満足させて、テーマ性をより強調して且つ複数のテーマを考慮したキーフレームを精度よく抽出することができる。
As described above, in the key
[第2の実施の形態]
図16は、本発明の第2実施形態であるキーフレーム抽出装置を適用したサーバ装置を含む、ネットワークシステムの全体構成を表すブロック図である。同図に示すように、ネットワークシステム700は、サーバ装置560と、情報通信端末570−1,570−2とが、ネットワーク580を介して接続された構成を有する。
ネットワークシステム700は、多数の動画像データを格納したサーバ装置560から、端末利用者によって使用される情報通信端末570−1,570−2が、所望の動画像データをダウンロードして端末利用者に閲覧等使用させるシステムである。
[Second Embodiment]
FIG. 16 is a block diagram showing an overall configuration of a network system including a server device to which the key frame extraction device according to the second embodiment of the present invention is applied. As shown in the figure, the network system 700 has a configuration in which a
In the network system 700, the information communication terminals 570-1 and 570-2 used by the terminal user download the desired moving image data from the
サーバ装置560は、その機能構成として、動画像データ記憶部561と、キーフレーム抽出装置500と、サムネイル生成部562と、通信処理部563とを備える。
動画像データ記憶部561は、動画像データを記憶する記憶装置であり、例えば磁気ハードディスク装置により実現される。
キーフレーム抽出装置500は、前述した第1実施形態および第1−第3変形例のうちいずれかによる装置である。
The
The moving image
The key
サムネイル生成部562は、キーフレーム抽出装置500が出力するフレーム識別情報と分類データとを取り込む。そして、サムネイル生成部562は、動画像データ記憶部561からフレーム識別情報に対応する画像データを抽出し、抽出した画像データを縮小してサムネイル画像データを生成する。そして、サムネイル生成部562は、生成したサムネイル画像データを、対応する動画像データに関連付ける。そして、サムネイル生成部562は、サムネイル画像データを関係付けた動画像データを、動画像データ記憶部561に分類データに基づき分類して記憶する。
The
通信処理部563は、ネットワークインタフェースの機能を含み、ネットワーク580を介する情報通信端末570−1,570−2との通信を制御する。通信処理部563は、情報通信端末570−1,570−2からのダウンロード要求を受信すると、ダウンロード要求に応じた、サムネイル画像データが関係付けられた動画像データを動画像データ記憶部561から読み出して要求元の情報通信端末570−1,570−2に送信する。
The
情報通信端末570−1,570−2は、ネットワーク580に対する接続装置との通信が可能な装置であり、例えば、コンピュータ装置、携帯電話機、スマートフォン、携帯情報端末(PDA;Personal Digital Assistant)等により実現される。
情報通信端末570−1,570−2は、サーバ装置560に対して動画像データの一覧を要求して取得し、図示しないディスプレイ装置に表示する。その表示内容は、前述した第1実施形態および各変形例に示したような、サムネイル画像が動画像データの一覧に表示されるものである。
ネットワーク580は、インターネットやLAN(Loacal Area Network)等のコンピュータネットワークである。
The information communication terminals 570-1 and 570-2 are devices capable of communicating with a connection device for the
The information communication terminals 570-1 and 570-2 request and acquire a list of moving image data from the
The
本発明の第2実施形態であるサーバ装置560によれば、キーフレーム抽出装置500が提供する、キーフレームおよび分類データまたはいずれか一方の情報を適用して、保持する動画像データを視覚的に見易くまた検索容易に管理することができる。
According to the
なお、上述した第1実施形態および第1−第3変形例、ならびに第2実施形態において、シーン解析部510は、公知のシーン検出技術を適用して実現してもよい。例えば、シーン解析部510は、パターンマッチングによるフレーム相関を検出する技術によりシーンを検出してもよい。また、シーン解析部510は、画像データのフレーム全体または一部の空間周波数を抽出して比較することによってシーンを検出してもよい。
In the first embodiment, the first to third modifications, and the second embodiment described above, the
また、上述した実施形態であるキーフレーム抽出装置の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するためのキーフレーム抽出プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたキーフレーム抽出プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺装置のハードウェアを含むものである。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。 Moreover, you may make it implement | achieve a part of function of the key frame extraction apparatus which is embodiment mentioned above with a computer. In this case, the key frame extraction program for realizing the function is recorded on a computer-readable recording medium, and the key frame extraction program recorded on the recording medium is read by the computer system and executed. May be. Here, the “computer system” includes an OS (Operating System) and peripheral device hardware. The “computer-readable recording medium” refers to a portable recording medium such as a flexible disk, a magneto-optical disk, an optical disk, and a memory card, and a storage device such as a magnetic hard disk built in the computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, it may include a device that holds a program for a certain period of time, such as a volatile memory inside a computer system serving as a server device or a client. Further, the above program may be for realizing a part of the functions described above, or may be realized by a combination with the program already recorded in the computer system. .
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。 As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to that embodiment, The design of the range which does not deviate from the summary of this invention, etc. are included.
100 撮像装置
110 撮像部
111 光学系
119 撮像素子
120 アナログ/デジタル(A/D)変換部
130 バッファメモリ部
140 画像処理部
150 表示部
160 記憶部
170 通信部
180 操作部
190 制御部
200 記憶媒体
300 バス
500 キーフレーム抽出装置
510 シーン解析部
511 時空間画像生成部
512 シーン検出部
520 キーフレーム抽出部
530 特徴量解析部
531 画像正規化部
532 特徴量抽出部
533 クラスタリング処理部
540 分類処理部
550 サムネイル生成部
560 サーバ装置
561 動画像データ記憶部
562 サムネイル生成部
563 通信処理部
570−1,570−2 情報通信端末
580 ネットワーク
700 ネットワークシステム
DESCRIPTION OF SYMBOLS 100 Image pick-up
Claims (12)
前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、
備えることを特徴とするキーフレーム抽出装置。 A scene analysis unit that analyzes moving image data and detects a scene;
A key frame extraction unit that extracts a key frame based on a scene length of the scene detected by the scene analysis unit and a position of image data in a time direction in a plurality of image data corresponding to the scene;
A key frame extraction device comprising:
前記シーン解析部が検出した複数のシーンのうち最もシーン長が長いシーンに対応する複数の画像データから、時系列的に中央または中央近傍の画像データをキーフレームとして抽出する
ことを特徴とする請求項1記載のキーフレーム抽出装置。 The key frame extraction unit
The center or near-center image data is extracted as a key frame in time series from a plurality of image data corresponding to a scene having the longest scene length among a plurality of scenes detected by the scene analysis unit. Item 2. A key frame extraction device according to Item 1.
前記最もシーン長が長いシーンに対応する複数の画像データから、前記シーンの少なくとも両端に対応する画像データを含めずに複数の画像データをキーフレームとして抽出する
ことを特徴とする請求項2記載のキーフレーム抽出装置。 The key frame extraction unit
The plurality of image data is extracted as a key frame from a plurality of image data corresponding to the scene having the longest scene length without including image data corresponding to at least both ends of the scene. Key frame extractor.
前記シーン解析部が検出した複数のシーンのうちシーン長が長い順に複数のシーンを選択し、選択した1シーンごとに、シーンに対応する複数の画像データから、時系列的に中央または中央近傍の画像データをキーフレームとして抽出する
ことを特徴とする請求項1記載のキーフレーム抽出装置。 The key frame extraction unit
Among the plurality of scenes detected by the scene analysis unit, a plurality of scenes are selected in descending order of the scene length, and for each selected scene, from the plurality of image data corresponding to the scene, the center or the vicinity of the center is selected in time series. 2. The key frame extracting apparatus according to claim 1, wherein the image data is extracted as a key frame.
前記選択した1シーンごとに、シーンに対応する複数の画像データから、前記シーンの少なくとも両端に対応する画像データを含めずに複数の画像データをキーフレームとして抽出する
ことを特徴とする請求項4記載のキーフレーム抽出装置。 The key frame extraction unit
5. The plurality of image data is extracted as a key frame for each selected scene from a plurality of image data corresponding to the scene without including image data corresponding to at least both ends of the scene. The key frame extraction device described.
前記シーンに対応する複数の画像データから、所定範囲の輝度値を有する複数の画像データを抽出し、これら抽出した複数の画像データからキーフレームを抽出する
ことを特徴とする請求項1から5いずれか一項記載のキーフレーム抽出装置。 The key frame extraction unit
6. A plurality of image data having a predetermined range of luminance values is extracted from a plurality of image data corresponding to the scene, and key frames are extracted from the extracted plurality of image data. A key frame extraction device according to claim 1.
前記特徴量抽出部が抽出した画像の特徴量に基づきクラスタリング処理を実行して特徴量ヒストグラムを生成するクラスタリング処理部と、
をさらに備えることを特徴とする請求項1または2記載のキーフレーム抽出装置。 A feature amount extraction unit that extracts a feature amount of an image from the key frame extracted by the key frame extraction unit;
A clustering processing unit that generates a feature amount histogram by performing clustering processing based on the feature amount of the image extracted by the feature amount extraction unit;
The key frame extraction device according to claim 1, further comprising:
前記特徴量抽出部が抽出した画像の特徴量に基づいて、キーフレームごとにクラスタリング処理を実行して複数の特徴量ヒストグラムを生成し、これら複数の特徴量ヒストグラムをクラスごとに加算して統合ヒストグラムを生成するクラスタリング処理部と、
をさらに備えることを特徴とする請求項1,3,4,5いずれか一項記載のキーフレーム抽出装置。 A feature amount extraction unit that extracts a feature amount of an image from each of a plurality of key frames extracted by the key frame extraction unit;
Based on the feature amount of the image extracted by the feature amount extraction unit, a clustering process is performed for each key frame to generate a plurality of feature amount histograms, and the plurality of feature amount histograms are added for each class to obtain an integrated histogram A clustering processing unit for generating
The key frame extraction device according to claim 1, further comprising:
動画像データを解析してシーンを検出するシーン解析部と、
前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、
として機能させるためのキーフレーム抽出プログラム。 Computer
A scene analysis unit that analyzes moving image data and detects a scene;
A key frame extraction unit that extracts a key frame based on a scene length of the scene detected by the scene analysis unit and a position of image data in a time direction in a plurality of image data corresponding to the scene;
Key frame extraction program to function as
キーフレーム抽出部が、前記シーン解析ステップにおいて前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出ステップと、
を有することを特徴とするキーフレーム抽出方法。 A scene analysis step in which the scene analysis unit detects the scene by analyzing the moving image data;
The key frame extraction unit extracts a key frame based on the scene length of the scene detected by the scene analysis unit in the scene analysis step and the position of the image data in the time direction in the plurality of image data corresponding to the scene. A key frame extraction step;
A key frame extraction method comprising:
前記撮像部が生成した動画像データを解析してシーンを検出するシーン解析部と、
前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、
前記キーフレーム抽出部が抽出したキーフレームに基づいて縮小画像データを生成するサムネイル生成部と、
前記サムネイル生成部が生成した縮小画像データを表示する表示部と、
備えることを特徴とする撮像装置。 An imaging unit for capturing and generating moving image data;
A scene analysis unit for analyzing the moving image data generated by the imaging unit and detecting a scene;
A key frame extraction unit that extracts a key frame based on a scene length of the scene detected by the scene analysis unit and a position of image data in a time direction in a plurality of image data corresponding to the scene;
A thumbnail generation unit that generates reduced image data based on the key frame extracted by the key frame extraction unit;
A display unit for displaying the reduced image data generated by the thumbnail generation unit;
An imaging apparatus comprising:
前記動画像データ記憶部に記憶された動画像データを解析してシーンを検出するシーン解析部と、
前記シーン解析部が検出したシーンのシーン長と前記シーンに対応する複数の画像データにおける時間方向の画像データの位置とに基づいて、キーフレームを抽出するキーフレーム抽出部と、
前記キーフレーム抽出部が抽出したキーフレームに基づいて縮小画像データを生成し、この縮小画像データを前記動画像データに関連付けて前記動画像データ記憶部に記憶させるサムネイル生成部と、
を備えたことを特徴とするサーバ装置。 A moving image data storage unit for storing moving image data;
A scene analysis unit for detecting a scene by analyzing the moving image data stored in the moving image data storage unit;
A key frame extraction unit that extracts a key frame based on a scene length of the scene detected by the scene analysis unit and a position of image data in a time direction in a plurality of image data corresponding to the scene;
A thumbnail generation unit that generates reduced image data based on the key frame extracted by the key frame extraction unit, and stores the reduced image data in the moving image data storage unit in association with the moving image data;
A server device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254049A JP2012105205A (en) | 2010-11-12 | 2010-11-12 | Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254049A JP2012105205A (en) | 2010-11-12 | 2010-11-12 | Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012105205A true JP2012105205A (en) | 2012-05-31 |
Family
ID=46395062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010254049A Pending JP2012105205A (en) | 2010-11-12 | 2010-11-12 | Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012105205A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855639A (en) * | 2012-08-16 | 2013-01-02 | 大连大学 | Extracting method for key frame of motion capture data |
JP2014187687A (en) * | 2013-02-21 | 2014-10-02 | Mitsubishi Electric Corp | Device and method for extracting highlight scene of moving image |
KR20160021016A (en) * | 2014-08-14 | 2016-02-24 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
EP3073394A1 (en) | 2015-03-24 | 2016-09-28 | Fujifilm Corporation | Image processing device, image processing method, program, and recording medium |
CN106303756A (en) * | 2016-10-10 | 2017-01-04 | 中国农业大学 | A kind of method and device for video copyright protecting |
CN109544664A (en) * | 2018-11-21 | 2019-03-29 | 北京像素软件科技股份有限公司 | Animation data processing method, device, electronic equipment and readable storage medium storing program for executing |
CN111797707A (en) * | 2020-06-12 | 2020-10-20 | 武汉大学 | Clustering-based shot key frame extraction method |
CN111949349A (en) * | 2018-08-21 | 2020-11-17 | 第四范式(北京)技术有限公司 | Method and system for uniformly performing feature extraction |
CN117729303A (en) * | 2023-04-17 | 2024-03-19 | 书行科技(北京)有限公司 | Video frame extraction method, device, computer equipment and medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11136637A (en) * | 1997-10-24 | 1999-05-21 | Matsushita Electric Ind Co Ltd | Representative image generating device |
JP2002520747A (en) * | 1998-07-16 | 2002-07-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | A histogram characterization method for video content |
JP2006060649A (en) * | 2004-08-23 | 2006-03-02 | Seiko Epson Corp | Method for determining segmenting range of still picture, and printer |
JP2009537096A (en) * | 2006-05-12 | 2009-10-22 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Keyframe extraction from video |
JP2009271997A (en) * | 2008-05-07 | 2009-11-19 | Canon Inc | Image processor |
-
2010
- 2010-11-12 JP JP2010254049A patent/JP2012105205A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11136637A (en) * | 1997-10-24 | 1999-05-21 | Matsushita Electric Ind Co Ltd | Representative image generating device |
JP2002520747A (en) * | 1998-07-16 | 2002-07-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | A histogram characterization method for video content |
JP2006060649A (en) * | 2004-08-23 | 2006-03-02 | Seiko Epson Corp | Method for determining segmenting range of still picture, and printer |
JP2009537096A (en) * | 2006-05-12 | 2009-10-22 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Keyframe extraction from video |
JP2009271997A (en) * | 2008-05-07 | 2009-11-19 | Canon Inc | Image processor |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855639A (en) * | 2012-08-16 | 2013-01-02 | 大连大学 | Extracting method for key frame of motion capture data |
CN102855639B (en) * | 2012-08-16 | 2014-11-19 | 大连大学 | Extracting method for key frame of motion capture data |
JP2014187687A (en) * | 2013-02-21 | 2014-10-02 | Mitsubishi Electric Corp | Device and method for extracting highlight scene of moving image |
KR20160021016A (en) * | 2014-08-14 | 2016-02-24 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
KR102298066B1 (en) * | 2014-08-14 | 2021-09-06 | 삼성전자주식회사 | Method for providing image contents and image contents providing apparatus |
EP3073394A1 (en) | 2015-03-24 | 2016-09-28 | Fujifilm Corporation | Image processing device, image processing method, program, and recording medium |
CN106303756A (en) * | 2016-10-10 | 2017-01-04 | 中国农业大学 | A kind of method and device for video copyright protecting |
CN111949349A (en) * | 2018-08-21 | 2020-11-17 | 第四范式(北京)技术有限公司 | Method and system for uniformly performing feature extraction |
CN109544664A (en) * | 2018-11-21 | 2019-03-29 | 北京像素软件科技股份有限公司 | Animation data processing method, device, electronic equipment and readable storage medium storing program for executing |
CN111797707A (en) * | 2020-06-12 | 2020-10-20 | 武汉大学 | Clustering-based shot key frame extraction method |
CN117729303A (en) * | 2023-04-17 | 2024-03-19 | 书行科技(北京)有限公司 | Video frame extraction method, device, computer equipment and medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012105205A (en) | Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device | |
CN106375674B (en) | Method and apparatus for finding and using video portions related to adjacent still images | |
US10062412B2 (en) | Hierarchical segmentation and quality measurement for video editing | |
KR101731771B1 (en) | Automated selection of keeper images from a burst photo captured set | |
US9013604B2 (en) | Video summary including a particular person | |
US8665345B2 (en) | Video summary including a feature of interest | |
US8599316B2 (en) | Method for determining key video frames | |
US8605221B2 (en) | Determining key video snippets using selection criteria to form a video summary | |
US8254630B2 (en) | Subject extracting method and device by eliminating a background region using binary masks | |
CN107430780B (en) | Method for output creation based on video content characteristics | |
JP2009539273A (en) | Extract keyframe candidates from video clips | |
JP2006510072A (en) | Method and system for detecting uniform color segments | |
CN103988227A (en) | Method and apparatus for image capture targeting | |
US8619150B2 (en) | Ranking key video frames using camera fixation | |
JPWO2006025272A1 (en) | Video classification device, video classification program, video search device, and video search program | |
JP2008035149A (en) | Video recording and reproducing system and video recording and reproducing method | |
JP2014050022A (en) | Image processing device, imaging device, and program | |
JP4639043B2 (en) | Moving picture editing apparatus and moving picture editing method | |
JP2009267773A (en) | Video editing device, photographic device, and video-editing method | |
US20220327865A1 (en) | Electronic device and control method | |
JP7444604B2 (en) | Image processing device and method, and imaging device | |
JP4966167B2 (en) | Image evaluation apparatus and camera having the image evaluation apparatus | |
JP5293422B2 (en) | Image specifying device and image specifying program | |
JP3499729B2 (en) | Method and apparatus for spatio-temporal integration and management of a plurality of videos, and recording medium recording the program | |
WO2011024356A1 (en) | Semiconductor integrated circuit and still image display method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140729 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141125 |