JP2014229092A - Image processing device, image processing method and program therefor - Google Patents
Image processing device, image processing method and program therefor Download PDFInfo
- Publication number
- JP2014229092A JP2014229092A JP2013108657A JP2013108657A JP2014229092A JP 2014229092 A JP2014229092 A JP 2014229092A JP 2013108657 A JP2013108657 A JP 2013108657A JP 2013108657 A JP2013108657 A JP 2013108657A JP 2014229092 A JP2014229092 A JP 2014229092A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- motion
- important scene
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、画像処理装置、画像処理方法、および、そのプログラムに関する。 The present invention relates to an image processing apparatus, an image processing method, and a program thereof.
ビデオクリップ(動画データ)あるいは映像データのハイライト再生やダイジェスト再生などを行うため、これらの画像データから特定のシーン(例えば、重要なシーン)を抽出する技術が知られている(例えば、特許文献1参照)。この特許文献1には、カメラにカメラモーションセンサを備え、グローバルモーションを計算して複数のビデオセグメントを形成し、一連のカメラモーションクラスにしたがって各セグメントをラベリングし、このラベリングしたセグメントから重要なシーンの候補を抽出する技術が開示されている。このグローバルモーションは、カメラモーションセンサによるカメラワークや映像から得られるカメラワークを計算したものである。 In order to perform highlight reproduction or digest reproduction of video clips (moving image data) or video data, a technique for extracting a specific scene (for example, an important scene) from these image data is known (for example, Patent Documents). 1). In this patent document, a camera is provided with a camera motion sensor, a global motion is calculated to form a plurality of video segments, each segment is labeled according to a series of camera motion classes, and an important scene is determined from the labeled segments. A technique for extracting candidates is disclosed. This global motion is obtained by calculating camera work obtained from a camera motion sensor and video.
しかしながら、特許文献1に開示された重要なシーンの候補の抽出方法では、カメラにカメラモーションセンサを設ける必要があった。
そこで、本発明は、上記事情に鑑みてなされたものであり、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出する、画像処理装置、画像処理方法、および、そのプログラムを提供することを目的とする。
However, in the important scene candidate extraction method disclosed in Patent Document 1, it is necessary to provide a camera motion sensor in the camera.
Therefore, the present invention has been made in view of the above circumstances, and provides an image processing apparatus, an image processing method, and a program for accurately extracting an important scene from image data without using a special sensor. The purpose is to provide.
本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出部と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部とを備えることを特徴とする画像処理装置である。 One aspect of the present invention provides a motion extraction unit that extracts motion information of an image based on an input image, and an important scene in which a subject in the image has motion based on the extracted motion information. An image processing apparatus comprising: a feature amount calculation unit that calculates a feature amount to be indicated.
また、本発明の一態様は、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを有することを特徴とする画像処理方法である。 Further, according to one embodiment of the present invention, a motion extraction procedure for extracting motion information of an image based on an input image, and an object in the image has motion based on the extracted motion information. It is an image processing method characterized by having a feature amount calculation procedure for calculating a feature amount indicating a scene.
また、本発明の一態様は、画像処理装置が備えるコンピュータに、入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順とを実行させるためのプログラムである。 One embodiment of the present invention is a motion extraction procedure for extracting motion information of an image based on an image input to a computer included in the image processing apparatus, and the image based on the extracted motion information. This is a program for executing a feature amount calculation procedure for calculating a feature amount indicating an important scene in which a subject moves.
本発明によれば、画像データから重要なシーンを精度よく抽出することができる。 According to the present invention, an important scene can be accurately extracted from image data.
[実施形態]
以下、図面を参照して、本発明に係る画像処理装置10の一実施形態について説明する。図1は、本発明の一実施の形態に係る画像処理装置10の構成を示す概略図である。
[Embodiment]
Hereinafter, an embodiment of an
図1に示すとおり、本実施の形態の画像処理装置10は、例えば、パーソナルコンピュータの機能として実現されており、入力される画像(処理対象の画像)のなかから抽出した重要シーンを出力する。すなわち、この画像処理装置10は、処理対象の画像データに含まれる重要シーンを抽出する。ここで、重要シーンとは、画像のうち、この画像の視聴者あるいは撮影者(以下の説明においては、単に視聴者と記載する。)が注目する場面の画像である。視聴者が画像に時間的な変化、すなわち動きがある部分に注目することから、この画像処理装置10は、画像のなかで動きがある部分をこの画像の被写体として抽出し、この被写体が特徴的な動きをする場面を重要シーンとして抽出する。すなわち、重要シーンとは、処理対象の画像のうち被写体が動いている場面の画像である。
As shown in FIG. 1, the
なお、この画像処理装置10は、パーソナルコンピュータの機能として実現されることに限られない。例えば、この画像処理装置10は、携帯電話やカメラに内蔵されていてもよい。また、ここでいう画像とは、必ずしも動画に限られないが、以下の説明においては、入力される画像(処理対象の画像)が動画である例について説明する。
The
以下、この画像処理装置10の構成について説明する。
画像処理装置10は、特徴量算出部100と、識別器生成部200と、重要シーン抽出部300と、記憶部400とを備えている。
記憶部400には、重要シーンを識別する識別器(識別情報)が記憶されている。この識別器とは、重要シーンを示す特徴量(以下の説明において、重要シーン特徴量h*(エッチ・アスタリスク)とも記載する。)に基づいて重要シーンを識別するための情報である。この重要シーン特徴量h*とは、処理対象の動画のうち、あるフレーム間の被写体の動きの方向を示す情報である。この動画のフレーム間の被写体の動きの方向について、図2を参照して説明する。
Hereinafter, the configuration of the
The
The
図2は、本実施形態の動画のフレーム構成と、フレーム間の被写体の動きの方向の一例を示す模式図である。以下、各フレームの左上の頂点を原点にして、XY直交座標系を設定し、このXY直交座標系を参照しつつ説明する。このXY直交座標系において、各フレームの左右方向をX軸とし、各フレームの上下方向をY軸とする。図2(a)に示すように、本実施形態の動画は、時系列に並べられた複数枚のフレーム(例えば、フレーム1〜n)を含んでいる。このフレームは、複数の画素(例えば、1920×1080画素)によって構成されている。 FIG. 2 is a schematic diagram illustrating an example of a frame structure of a moving image and a direction of movement of a subject between frames according to the present embodiment. Hereinafter, an XY orthogonal coordinate system is set with the top left vertex of each frame as the origin, and the description will be made with reference to this XY orthogonal coordinate system. In this XY orthogonal coordinate system, the horizontal direction of each frame is taken as the X axis, and the vertical direction of each frame is taken as the Y axis. As shown in FIG. 2A, the moving image of the present embodiment includes a plurality of frames (for example, frames 1 to n) arranged in time series. This frame is composed of a plurality of pixels (for example, 1920 × 1080 pixels).
ここで、複数枚(例えば、2枚)のフレームの画像どうしを比較することにより、フレーム間の画像の動きを求めることができる。図2(b)に示すように、フレーム1およびフレーム4にサッカーボールの画像が含まれている場合を具体例にして説明する。このフレーム1には、サッカーボールの画像が位置Y1に表示されている。また、フレーム4には、サッカーボールの画像が位置Y2に表示されている。これら2枚のフレーム(フレーム1とフレーム4)の画像を比較すると、サッカーボールの画像の位置が位置Y1から位置Y2に、すなわち−Y方向に移動している。このようにして、2枚のフレームの画像を比較することにより、サッカーボールの画像の動きを求めることができる。ここで、画像の動きをオプティカルフローOFともいう。すなわち、この図2(b)の例の場合においては、2枚のフレームの画像を比較することにより、サッカーボールのオプティカルフローOF1を求めることができる。このオプティカルフローOFは、フレーム内の画像の動きを表す2種類の値(フレームの幅方向(X軸方向)成分と高さ方向(Y軸方向)成分)を、フレームを構成する画素毎に有している。 Here, the motion of the image between the frames can be obtained by comparing the images of a plurality of frames (for example, two). As shown in FIG. 2B, a case where a soccer ball image is included in frames 1 and 4 will be described as a specific example. In this frame 1, an image of a soccer ball is displayed at a position Y1. In addition, an image of a soccer ball is displayed on the frame 4 at a position Y2. When the images of these two frames (frame 1 and frame 4) are compared, the position of the soccer ball image has moved from position Y1 to position Y2, that is, in the -Y direction. In this way, the motion of the soccer ball image can be obtained by comparing the images of the two frames. Here, the movement of the image is also referred to as an optical flow OF. That is, in the case of the example of FIG. 2B, the optical flow OF1 of the soccer ball can be obtained by comparing the images of the two frames. This optical flow OF has two types of values (the frame width direction (X-axis direction) component and the height direction (Y-axis direction) component) representing the motion of the image in the frame for each pixel constituting the frame. doing.
図1に戻り、画像処理装置10の説明を続ける。この画像処理装置10は、訓練過程と、識別過程との2つの過程によって重要シーンを抽出する。このうち、訓練過程とは、入力される画像(例えば、動画)の重要シーン特徴量h*を算出して、算出した重要シーン特徴量h*に基づく識別器(識別情報)を記憶部400に記憶させる過程である。この訓練過程において入力される画像とは、訓練画像である。この識別過程において入力される画像とは、処理対象の画像である。ここでは、まず訓練過程について説明する。
Returning to FIG. 1, the description of the
画像処理装置10は、訓練過程において、動画のカテゴリごとに複数の訓練画像が入力される。画像処理装置10は、入力された複数の訓練画像について、重要シーン特徴量h*をそれぞれ算出する。ここで、動画のカテゴリとは、オプティカルフローOFの方向の特徴に基づいて、動画の内容を分類する情報である。より詳細には、動画のカテゴリとは、オプティカルフローOFの方向のばらつきの程度に基づいて、動画の内容を分類する情報である。ここで、オプティカルフローOFの方向のばらつきの程度とは、例えば、オプティカルフローOFの方向を8方向に分類した場合、ある動画のオプティカルフローOFについて、この8方向の各方向を階級とするヒストグラムの頻度のばらつきの程度である。具体例を示すと、動画のカテゴリには、「サッカーの試合中の競技場の全景画像」や、「サッカーの個人技のクローズアップ画像」などが含まれる。この動画のカテゴリ「サッカーの試合中の競技場の全景画像」におけるオプティカルフローOFの特徴とは、例えば、サッカーボールが左右のいずれかのゴールに向けて移動する動きである。この場合、選手の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。すなわち、この動画を見た視聴者は、画像のうち相対的に動きが大きい画像領域を被写体として認識し、その被写体の画像に注目する。換言すれば、ここでいう被写体とは、画像内の複数の画像領域のうち当該画像領域間において相対的に動きが大きい画像領域の画像である。また、以下の説明において、被写体を前景ともいう。この場合において、注目される被写体(前景)とは、サッカーボールである。すなわち、この例においては、注目される被写体が画面の左右方向(X軸方向)に移動する動きが、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローOFの特徴である。換言すれば、例えば、動画のカテゴリ「サッカーの試合中の競技場の全景画像」のオプティカルフローOFの特徴とは、オプティカルフローOFの主方向が画面の左右方向(X軸方向)になることである。
The
また、動画のカテゴリ「サッカーの個人技のクローズアップ画像」におけるオプティカルフローOFの特徴とは、例えば、サッカーボールがリフティングされて上下に移動する動きである。この場合、リフティングしている人の画像はサッカーボールの画像に比べて動きが少ない。この動画を見た視聴者は、サッカーボールの画像に注目する。したがって、この場合において、注目される被写体、つまり前景とは、サッカーボールである。すなわち、注目される被写体(前景)が画面の上下方向(Y軸方向)に移動する動きが、動画のカテゴリ「サッカーの個人技のクローズアップ画像」のオプティカルフローOFの特徴である。 In addition, the feature of the optical flow OF in the moving image category “close-up image of a soccer individual technique” is, for example, a movement in which a soccer ball is lifted and moved up and down. In this case, the image of the person lifting is less moving than the image of the soccer ball. Viewers who watch this video pay attention to the image of the soccer ball. Therefore, in this case, the subject to be noticed, that is, the foreground is a soccer ball. That is, the movement of the noted subject (foreground) in the vertical direction (Y-axis direction) of the screen is a feature of the optical flow OF of the moving image category “close-up image of soccer individual technique”.
[画像処理装置10の構成(訓練過程)]
次に、訓練過程における画像処理装置10の構成について説明する。この訓練過程においては、特徴量算出部100と識別器生成部200とによって訓練画像の識別器を生成する。この特徴量算出部100は、オプティカルフロー抽出部110と、前景のオプティカルフロー抽出部120と、重要シーン特徴量算出部130とを備えている。この特徴量算出部100は、入力される画像に基づいて、当該画像の動き情報を抽出し、抽出した動き情報に基づいて、当該画像の識別器を生成する。
[Configuration of Image Processing Apparatus 10 (Training Process)]
Next, the configuration of the
具体的には、オプティカルフロー抽出部110は、入力される訓練画像のオプティカルフローOFを抽出する。このオプティカルフロー抽出部110は、訓練画像データが入力されると、この訓練画像を所定の時間間隔によってサンプリングする。この所定の時間間隔とは、例えば、図2に示すように、3フレームごとである。この場合には、オプティカルフロー抽出部110は、訓練画像データが入力されると、この訓練画像を3フレームごとにサンプリングする。
Specifically, the optical
次に、オプティカルフロー抽出部110は、サンプリングした前後2枚のフレームに基づいて、訓練画像のオプティカルフローOFを次の式(1)によって算出する。
Next, the optical
ここで、式(1)中の(x,y)は、オプティカルフローOFを算出したフレーム内の画素座標を表す。また、式(1)中のvx(x,y)、vy(x,y)は、それぞれフレームの幅方向(X軸方向)と高さ方向(Y軸方向)のオプティカルフロー成分を示す。なお、このvx、vyの添え字x、yは、式(1)および以下の各式において、いずれも下付き文字によって記載する。すなわち、オプティカルフロー抽出部110は、画像を構成する所定の画素毎に当該画像の動き情報を抽出する。ここで、所定の画素とは、フレーム内の各画素であってもよく、ある画素間隔L(例えば、L=5画素)毎の画素であってもよい。以下、オプティカルフロー抽出部110がフレーム内の各画素についてオプティカルフローOFを算出した場合について説明する。
Here, (x, y) in Equation (1) represents pixel coordinates in the frame for which the optical flow OF has been calculated. Further, vx (x, y) and vy (x, y) in the formula (1) indicate optical flow components in the width direction (X-axis direction) and the height direction (Y-axis direction), respectively. The subscripts x and y of vx and vy are written in subscripts in the formula (1) and the following formulas. That is, the optical
前景のオプティカルフロー抽出部120は、オプティカルフロー抽出部110が抽出した訓練画像のオプティカルフローOFから、前景のオプティカルフローFOFを抽出する。具体的には、前景のオプティカルフロー抽出部120は、式(2)および式(3)によってフレーム毎にオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とを算出する。ここでNとは、フレーム毎に算出したオプティカルフローOFの数である。
The foreground optical
次に、前景のオプティカルフロー抽出部120は、算出したオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とに基づいて、前景のオプティカルフローFOFを抽出する。具体的には、前景のオプティカルフロー抽出部120は、オプティカルフローOFの大きさv(x,y)から平均値v ̄(ブイ・バー)を引いたもの、すなわち、残差(v(x,y)−v ̄(ブイ・バー))に基づいて、前景のオプティカルフローFOFを算出する。例えば、前景のオプティカルフロー抽出部120は、標準偏差σより大きければ、そのオプティカルフローOF(v(x,y))を前景のオプティカルフローFOF(v*(x,y))(ブイ・アスタリスク・エックス・ワイ)とする(式(4)を参照。)。なお、このvの添え字*(アスタリスク)は、式(4)および以下の各式において、いずれも上付き文字によって記載する。
Next, the foreground optical
次に、前景のオプティカルフロー抽出部120は、前景のオプティカルフローFOF(v*(x,y))を複数の方向に量子化して、各方向の頻度を算出する。具体的には、前景のオプティカルフロー抽出部120は、0でない前景のオプティカルフローFOF(v*(x,y))の方向を8方向に量子化して、方向ヒストグラム(方向毎の頻度)hを算出する(式(5)、式(6)を参照。)。ここで、方向θ(x,y)は、ラジアンによって示される方向である。
Next, the foreground optical
すなわち、特徴量算出部100は、オプティカルフロー抽出部110が、入力される画像に基づいて当該画像の動き情報(オプティカルフローOF)を抽出し、前景のオプティカルフロー抽出部120が、抽出された動き情報に基づいて画像内の被写体の動きを示す動き情報(前景のオプティカルフローFOF)を抽出する。
That is, in the feature
また、方向ヒストグラムhは、あるフレーム内において相対的に動きが大きい画像領域を示している。すなわち、前景のオプティカルフロー抽出部120は、この方向ヒストグラムhを算出することによって、あるフレーム内において相対的に動きが大きい画像領域を前景(被写体)として抽出することができる。
In addition, the direction histogram h indicates an image region having a relatively large movement within a certain frame. That is, the foreground optical
次に、重要シーン特徴量算出部130は、式(5)および式(6)によって算出した方向ヒストグラムhのうち、頻度が最も大きい成分を第1成分とし、残りの成分を巡回的に並べ替えたものh*(エッチ・アスタリスク)を、重要シーン特徴量として算出する。すなわち、重要シーン特徴量算出部130は、抽出された被写体の動きを示す動き情報に基づいて、重要シーンを示す特徴量を算出する。ここで、重要シーン特徴量算出部130は、所定の画素毎に抽出された動き情報が示す動きの方向のうち、最も出現頻度が高い動きの方向に基づいて、重要シーンを示す特徴量を算出する。例えば、あるフレームにおいて、方向ヒストグラムhのk=3番目の成分h3が最も大きかったとすると、このフレームの重要シーン特徴量h*は、次の式(7)によって示される。
Next, the important scene feature
重要シーン特徴量算出部130は、この重要シーン特徴量h*をサンプリングしたすべてのフレームにおいて算出する。次に、重要シーン特徴量算出部130は、算出した重要シーン特徴量h*と、画像のカテゴリを示す画像カテゴリデータとを関連付けて、記憶部400に記憶させる。すなわち、重要シーン特徴量算出部130は、抽出された動き情報に基づいて、重要シーン特徴量h*を算出する。すなわち、重要シーン特徴量算出部130は、入力された画像のカテゴリ(種類)を示す情報と、抽出されたオプティカルフローOF(動き情報)とに基づいて、重要シーン特徴量h*を算出する。
The important scene feature
上述したように、重要シーン特徴量算出部130は、前景のオプティカルフローFOFが示す被写体の動きの方向に基づいて、重要シーン特徴量h*を算出する。すなわち、重要シーン特徴量算出部130は、動き情報が示す動きの方向に基づいて、重要シーン特徴量h*を算出する。
As described above, the important scene feature
また、重要シーン特徴量算出部130は、方向ヒストグラムhに基づいて、重要シーン特徴量h*を算出する。この方向ヒストグラムhとは、所定の画素毎に抽出された前景のオプティカルフローFOF(動き情報)が示す動きの方向の出現頻度を示す情報である。すなわち、重要シーン特徴量算出部130は、所定の画素毎に抽出された動き情報が示す動きの方向の出現頻度に基づいて、重要シーン特徴量h*を算出する。
Further, the important scene feature
識別器生成部200は、画像の重要シーンを識別する識別器(識別情報)を生成する。具体的には、識別器生成部200は、重要シーン特徴量算出部130が算出した重要シーン特徴量h*と、入力される重要シーンデータと、入力される画像カテゴリデータとに基づいて、識別器を生成する。この重要シーンデータとは、特徴量算出部100に入力される訓練画像の各シーンのうち、重要シーンを示す情報である。すなわち、重要シーンデータとは、識別器が、訓練画像の各シーンのうち、重要シーンとして識別すべき正解のシーンを示す情報である。また、画像カテゴリデータとは、特徴量算出部100に入力される訓練画像データのカテゴリを示すデータである。
The
この識別器生成部200は、例えば、既知の機械学習の手法(例えば、bag−of−wordsとSVMとを用いた識別方法)によって識別器を生成する。
The
また、識別器生成部200は、画像のカテゴリ毎に識別器を生成することができる。ここで、画像のカテゴリ毎に重要シーン特徴量h*が相違することがある。したがって、重要シーンを識別する識別器を画像のカテゴリ毎に用意することにより、各カテゴリに適応した、識別精度のよい識別器を用意することができる。すなわち、画像のカテゴリ毎に、このカテゴリに応じた重要シーン特徴量h*に基づいて生成される識別器を用意することにより、画像処理装置10は、精度よく重要シーンを識別することができる。
Further, the
[画像処理装置10の構成(識別過程)]
次に、識別過程における画像処理装置10の構成について説明する。この識別過程においては、重要シーン抽出部300が、記憶部400に記憶されている訓練画像の重要シーン特徴量h*と、処理対象の画像とに基づいて、処理対象の画像から重要シーンを抽出する。この重要シーン抽出部300の具体的な構成について、以下説明する。
[Configuration of Image Processing Device 10 (Identification Process)]
Next, the configuration of the
重要シーン抽出部300は、上述した特徴量算出部100に相当する特徴量算出部320と、重要シーン判定部330とを備えている。特徴量算出部320は、処理対象の画像データが入力されると、上述した特徴量算出部100と同様にして、処理対象の画像の前景のオプティカルフローFOF(v*(x,y))を抽出する。
The important
また、特徴量算出部320は、抽出した処理対象の画像の前景のオプティカルフローFOF(v*(x,y))に基づいて、処理対象の画像の重要シーン特徴量h*(エッチ・アスタリスク)を算出する。
In addition, the feature
重要シーン判定部330は、処理対象の画像のカテゴリを示す画像カテゴリデータと、記憶部400に画像のカテゴリ毎に記憶されている識別器と、特徴量算出部320が算出した処理対象の画像の重要シーン特徴量h*とに基づいて、処理対象の画像から重要シーンを判定する。具体的には、重要シーン判定部330は、特徴量算出部320が算出した処理対象の画像の重要シーン特徴量h*を、記憶部400に記憶されている識別器に適用することにより、入力された処理対象の画像のシーンが重要シーンであるか否かを判定する。
The important
上述したように、重要シーン判定部330は、入力される画像カテゴリデータに基づいて、重要シーンを判定する。具体的には、重要シーン判定部330は、記憶部400に記憶されている識別器のうち、入力される画像カテゴリデータが示す画像のカテゴリに関連付けられている識別器を読み出す。これにより、重要シーン判定部330は、処理対象の画像の重要シーン特徴量h*の適用対象として、画像のカテゴリ毎に分類された識別器を用いることができる。すなわち、重要シーン判定部330は、処理対象の画像のカテゴリに適合した識別器を選択することができるため、精度よく重要シーンを判定することができる。
As described above, the important
重要シーン判定部330は、上述のようにして判定した重要シーンを示す画像を重要シーン画像データとして出力する。
ここまで、画像処理装置10が行う重要シーン抽出の基本的な構成について説明した。以下、画像処理装置10が行う重要シーン抽出の、より具体的な構成について説明する。
The important
Up to this point, the basic configuration of the important scene extraction performed by the
[画像処理装置10のより具体的な構成について]
上述において、特徴量算出部100は、入力される訓練画像データの画素数を変化させずに、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。具体的には、特徴量算出部100は、訓練画像データの画素数を低減させて訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出する。例えば、特徴量算出部100のオプティカルフロー抽出部110は、入力される訓練画像が1920×1080画素である場合に、この訓練画像を320×240画素に画像サイズを変更して、オプティカルフローOFおよび前景のオプティカルフローFOFを算出する。この際に、オプティカルフロー抽出部110は、入力される訓練画像のアスペクト比(例えば、16:9)と、画像サイズを変更した後の画像のアスペクト比(4:3)とが異なる場合には、画像サイズを変更する際に画像のトリミングを行う。これにより、特徴量算出部100は、オプティカルフローOFを算出するための演算量を低減させることができる。また、これにより、特徴量算出部100は、入力される訓練画像にノイズ成分が混入している場合に、このノイズ成分による影響を低減することができる。
[More Specific Configuration of Image Processing Apparatus 10]
In the above description, the feature
また、上述において、特徴量算出部100は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。ここで、動画のフレームにおいて、視聴者が注目する領域はフレーム中央付近でありフレーム四隅はほとんど注目されないことがある。したがって、特徴量算出部100は、訓練画像のフレーム内の周辺部分の画素については、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出しなくてもよい。すなわち、特徴量算出部100は、訓練画像のフレーム内の中心部分の画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出すれば足りる。より具体的な一例として、特徴量算出部100は、半径閾値αの楕円EO内の画素、すなわち、W、Hをフレームの横幅と高さとした場合に、次の式(8)によって示される画素(x,y)によってオプティカルフローOFを算出する。なお、この式(8)において、0<α≦1である。
In the above description, the feature
特徴量算出部100が、この式(8)によって示される楕円EO内の画素を算出対象として、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出した具体例を図3に示す。
図3は、本実施形態の特徴量算出部100による動き算出結果の一例を示す模式図である。特徴量算出部100のオプティカルフロー抽出部110は、例えば、図3(a)に示す楕円EO内画素を算出対象として、訓練画像のオプティカルフローOFを算出する。また、特徴量算出部100の前景のオプティカルフロー抽出部120は、例えば、図3(b)に示すように、上述の楕円EO内に含まれるサッカーボールの画像の動きを、前景のオプティカルフローFOFとして算出する。このように構成することにより、特徴量算出部100は、画像の動きを示す情報(オプティカルフローOF、前景のオプティカルフローFOF)を算出するための演算量を低減させることができる。
FIG. 3 shows a specific example in which the feature
FIG. 3 is a schematic diagram illustrating an example of a motion calculation result by the feature
また、上述において、特徴量算出部100は、入力される訓練画像のフレーム内のすべての画素について、訓練画像のオプティカルフローOFおよび前景のオプティカルフローFOFを算出したが、これに限られない。特徴量算出部100は、フレーム内の画素のうち、所定の間隔で間引きされた画素に対して、オプティカルフローOFおよび前景のオプティカルフローFOFを算出してもよい。一例として、特徴量算出部100は、画素間隔L(例えば、L=5画素)毎にオプティカルフローOFおよび前景のオプティカルフローFOFを算出する(式(9)および式(10)を参照。)。
In the above description, the feature
このように構成することによっても、特徴量算出部100は、オプティカルフローOFを算出するための演算量を低減させることができる。
Also with this configuration, the feature
また、オプティカルフロー抽出部110は、上述した式(2)および式(3)によってオプティカルフローOFの平均値v ̄(ブイ・バー)と標準偏差σ(シグマ)とを算出する前に、ノイズとみなすオプティカルフローの大きさの閾値v0(ブイ・ゼロ)と、前景のオプティカルフローの標準偏差の閾値σ0(シグマ・ゼロ)とを用いて、オプティカルフローOF(v(x,y))を算出する(式(11)を参照。)。
Further, the optical
一例として、オプティカルフロー抽出部110は、閾値v0=2であり、閾値σ0=2画素(ピクセル)としてオプティカルフローOF(v(x,y))を算出する。
As an example, the optical
このように構成することによって、オプティカルフロー抽出部110は、オプティカルフローOF算出時にノイズを除去することができ、前景のオプティカルフローFOFの誤検出を少なくすることができる。
With this configuration, the optical
また、前景のオプティカルフロー抽出部120は、上述した式(4)に基づいて前景のオプティカルフローFOF(v*(x,y))(ブイ・アスタリスク・エックス・ワイ)を算出するとして説明したが、これに限られない。前景のオプティカルフロー抽出部120は、式(12)に示すように、閾値β(β≧0)を用いて前景のオプティカルフローFOFを算出するように構成してもよい。この閾値βは、例えば、閾値β=1である。
The foreground optical
このように構成することによって、前景のオプティカルフロー抽出部120は、算出する前景のオプティカルフローFOFを、例えば、動画のカテゴリや、動画シーンの長さ(継続時間)に応じて調節することができる。
With this configuration, the foreground optical
また、重要シーン判定部330は、2つ以上の重要シーンを1つの重要シーンにまとめて画像を出力してもよい。この場合には、重要シーン判定部330は、隣接する2つの重要シーンの時間間隔がある時間T(例えば、時間T=2秒)以下であれば、その2つの前の重要シーンと後の重要シーンとのうち、前の重要シーンの開始時刻から後の重要シーンの終了時刻までを1つの重要シーンとしてまとめて出力してもよい。このように構成することにより、重要シーン判定部330は、重要シーンが細切れにならないようにして、重要シーンを出力することができる。
Further, the important
[画像処理装置10の動作]
次に、図4を参照して、本実施形態の画像処理装置10の動作について説明する。
図4は、本実施形態の画像処理装置10の動作の一例を示すフローチャートである。まず、訓練過程における動作について説明し、次に、識別過程における動作について説明する。
[Operation of Image Processing Apparatus 10]
Next, the operation of the
FIG. 4 is a flowchart showing an example of the operation of the
訓練過程において、オプティカルフロー抽出部110は、入力される訓練画像のオプティカルフローOFを抽出する(ステップS10)。
In the training process, the optical
次に、前景のオプティカルフロー抽出部120は、オプティカルフロー抽出部110が抽出した訓練画像のオプティカルフローOFから、前景のオプティカルフローFOFを抽出する(ステップS20)。
Next, the foreground optical
次に、前景のオプティカルフロー抽出部120は、ステップS20において抽出した前景のオプティカルフローFOFを複数の方向に量子化する(ステップS30)。
次に、前景のオプティカルフロー抽出部120は、ステップS30において各方向に量子化した前景のオプティカルフローFOFについて、各方向の頻度を算出する(ステップS40)。これにより、方向ヒストグラムhが算出される。
Next, the foreground optical
Next, the foreground optical
次に、重要シーン特徴量算出部130は、ステップS40において算出された方向ヒストグラムhに基づいて、重要シーン特徴量h*(エッチ・アスタリスク)を算出する(ステップS50)。
Next, the important scene feature
次に、特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みであるか否かを判定する(ステップS60)。ここで、訓練画像には、さまざまなカテゴリの画像がある。特徴量算出部100は、訓練画像のカテゴリ毎に重要シーン特徴量h*を算出するため、複数ある訓練画像について、重要シーン特徴量h*をそれぞれ算出する。特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みであると判定した場合(ステップS60:YES)には、処理をステップS70に進める。特徴量算出部100は、すべての訓練画像について重要シーン特徴量h*を算出済みでないと判定した場合(ステップS60:NO)には、次の訓練画像について重要シーン特徴量h*を算出するため、処理をステップS10に戻す。
Next, the feature
次に、識別器生成部200は、ステップS50において画像のカテゴリ毎に算出した重要シーン特徴量h*と、入力された画像カテゴリデータと、重要シーンデータとに基づいて、識別器を生成する。また、識別器生成部200は、入力された画像カテゴリデータと、生成した識別器とを関連付けて、記憶部400に記憶させて訓練過程を終了する(ステップS70)。
Next, the
次に、識別過程において、特徴量算出部320は、上述したステップS10〜ステップS50と同様にして、重要シーン特徴量h*を算出する(ステップS100〜ステップS140)。
Next, in the identification process, the feature
次に、重要シーン判定部330は、ステップS100〜ステップS140において算出された処理対象画像の重要シーン特徴量h*と、ステップS70において記憶部400に記憶された識別器と、入力される画像のカテゴリとに基づいて、処理対象画像から重要シーンを抽出して処理を終了する(ステップS150)。
Next, the important
以上説明したように本実施形態の画像処理装置10は、特徴量算出部100と、識別器生成部200とを備えている。これにより、画像処理装置10は、入力される画像(例えば、動画)に含まれる被写体を抽出し、この被写体の動きに基づいて、重要シーン特徴量h*を算出する。したがって、画像処理装置10は、入力される画像を撮影したときの音声情報やカメラのセンサ情報などの付加的な情報を必要とせずに、重要シーン特徴量h*を算出することができる。すなわち、画像処理装置10によれば、特別なセンサを用いることなく、画像データから重要なシーンを精度よく抽出することができる。
As described above, the
また、動画が、動いている被写体をカメラで追って撮影された場合には、この被写体がほぼ固定され背景が大きく動く。この場合にも、本実施形態の画像処理装置10によれば、大きく動く背景を被写体(前景)と誤認識することなく、前景のオプティカルフローFOFを算出することができる。
In addition, when a moving image is shot with a camera following a moving subject, the subject is almost fixed and the background moves greatly. Also in this case, according to the
なお、上述の実施形態において、画像処理装置10が、動画のカテゴリに基づいて重要シーンを抽出する例について説明したが、これに限られない。例えば、画像処理装置10は、一般的な機械学習の手法に基づいて重要シーンを抽出するため、動画のカテゴリごとに特徴量を算出しなくても、重要シーンを抽出することができる。これにより、画像処理装置10は、その構成を簡素化することができる。
In the above-described embodiment, the example in which the
また、上述の実施形態において、画像処理装置10が、入力された動画のカテゴリと、算出した特徴量とを関連付ける例について説明したが、これに限られない。例えば、画像処理装置10は、一般的な機械学習の手法に基づいて動画のカテゴリを自装置において判定し、判定した動画のカテゴリと算出した特徴量とを関連付けてもよい。これにより、画像処理装置10は、動画のカテゴリ判定を自動化することができるため、その操作を容易にすることができる。
In the above-described embodiment, the example in which the
また、上述した画像処理装置10の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための画像処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された画像処理プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺装置のハードウェアを含むものである。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
Further, some functions of the
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実
施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to that embodiment, The design of the range which does not deviate from the summary of this invention, etc. are included.
10…画像処理装置、100…特徴量算出部、110…オプティカルフロー抽出部、120…前景のオプティカルフロー抽出部、130…重要シーン特徴量算出部、200…識別器生成部、300…重要シーン抽出部、320…特徴量算出部、330…重要シーン判定部、400…記憶部
DESCRIPTION OF
Claims (9)
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出部と、
を備えることを特徴とする画像処理装置。 A motion extraction unit that extracts motion information of the image based on the input image;
Based on the extracted motion information, a feature amount calculating unit that calculates a feature amount indicating an important scene in which the subject in the image has a motion;
An image processing apparatus comprising:
前記動き抽出部は、
入力される画像に基づいて、前記画像内の前記被写体の動きを示す動き情報を抽出し、
前記特徴量算出部は、
前記抽出された前記被写体の動きを示す動き情報に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項1に記載の画像処理装置。 The movement information is information indicating movement of the subject in the image,
The motion extraction unit
Based on the input image, extract motion information indicating the motion of the subject in the image,
The feature amount calculation unit includes:
The image processing apparatus according to claim 1, wherein a feature amount indicating the important scene is calculated based on movement information indicating the extracted movement of the subject.
ことを特徴とする請求項1または請求項2に記載の画像処理装置。 The image processing apparatus according to claim 1, wherein the subject is an image of an image area that has a relatively large movement between the image areas among a plurality of image areas in the image. .
前記特徴量算出部は、
前記動き情報が示す前記動きの方向に基づいて、前記特徴量を算出する
ことを特徴とする請求項1から請求項3のいずれか一項に記載の画像処理装置。 The movement information includes information indicating the direction of movement of the subject,
The feature amount calculation unit includes:
The image processing apparatus according to any one of claims 1 to 3, wherein the feature amount is calculated based on a direction of the motion indicated by the motion information.
入力される画像に基づいて、当該画像を構成する所定の画素毎に当該画像の動き情報を抽出し、
前記特徴量算出部は、
前記所定の画素毎に抽出された動き情報が示す前記動きの方向の出現頻度に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項4に記載の画像処理装置。 The motion extraction unit
Based on the input image, the motion information of the image is extracted for each predetermined pixel constituting the image,
The feature amount calculation unit includes:
The image processing apparatus according to claim 4, wherein a feature amount indicating the important scene is calculated based on an appearance frequency of the motion direction indicated by the motion information extracted for each predetermined pixel.
前記所定の画素毎に抽出された動き情報が示す前記動きの方向のうち、最も出現頻度が高い前記動きの方向に基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項5に記載の画像処理装置。 The feature amount calculation unit includes:
The feature amount indicating the important scene is calculated based on the direction of the motion having the highest appearance frequency among the directions of the motion indicated by the motion information extracted for each predetermined pixel. 5. The image processing apparatus according to 5.
前記特徴量算出部は、
入力された前記画像の種類を示す情報と、前記抽出された動き情報とに基づいて、前記重要シーンを示す特徴量を算出する
ことを特徴とする請求項1から請求項6のいずれか一項に記載の画像処理装置。 The feature amount calculation unit is further input with information indicating the type of the image,
The feature amount calculation unit includes:
The feature amount indicating the important scene is calculated based on the input information indicating the type of the image and the extracted motion information. An image processing apparatus according to 1.
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を有することを特徴とする画像処理方法。 A motion extraction procedure for extracting motion information of the image based on the input image;
Based on the extracted motion information, a feature amount calculation procedure for calculating a feature amount indicating an important scene in which a subject in the image has a motion;
An image processing method comprising:
入力される画像に基づいて、当該画像の動き情報を抽出する動き抽出手順と、
前記抽出された動き情報に基づいて、前記画像内の被写体に動きがある重要シーンを示す特徴量を算出する特徴量算出手順と、
を実行させるためのプログラム。 In the computer provided in the image processing apparatus,
A motion extraction procedure for extracting motion information of the image based on the input image;
Based on the extracted motion information, a feature amount calculation procedure for calculating a feature amount indicating an important scene in which a subject in the image has a motion;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108657A JP2014229092A (en) | 2013-05-23 | 2013-05-23 | Image processing device, image processing method and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013108657A JP2014229092A (en) | 2013-05-23 | 2013-05-23 | Image processing device, image processing method and program therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014229092A true JP2014229092A (en) | 2014-12-08 |
Family
ID=52128883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013108657A Pending JP2014229092A (en) | 2013-05-23 | 2013-05-23 | Image processing device, image processing method and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014229092A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021240732A1 (en) * | 2020-05-28 | 2021-12-02 | ||
WO2021240678A1 (en) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | Video image processing device, video image processing method, and recording medium |
WO2021240677A1 (en) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | Video processing device, video processing method, training device, training method, and recording medium |
-
2013
- 2013-05-23 JP JP2013108657A patent/JP2014229092A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021240678A1 (en) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | Video image processing device, video image processing method, and recording medium |
WO2021240677A1 (en) * | 2020-05-27 | 2021-12-02 | 日本電気株式会社 | Video processing device, video processing method, training device, training method, and recording medium |
JPWO2021240678A1 (en) * | 2020-05-27 | 2021-12-02 | ||
JPWO2021240677A1 (en) * | 2020-05-27 | 2021-12-02 | ||
JP7420245B2 (en) | 2020-05-27 | 2024-01-23 | 日本電気株式会社 | Video processing device, video processing method, and program |
JP7485023B2 (en) | 2020-05-27 | 2024-05-16 | 日本電気株式会社 | Image processing device, image processing method, training device, and program |
JPWO2021240732A1 (en) * | 2020-05-28 | 2021-12-02 | ||
WO2021240732A1 (en) * | 2020-05-28 | 2021-12-02 | 日本電気株式会社 | Information processing device, control method, and storage medium |
JP7452641B2 (en) | 2020-05-28 | 2024-03-19 | 日本電気株式会社 | Information processing device, control method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10523894B2 (en) | Automated selection of keeper images from a burst photo captured set | |
KR102354692B1 (en) | Rule-based video importance analysis | |
EP3216008B1 (en) | Avatar video apparatus and method | |
US9153031B2 (en) | Modifying video regions using mobile device input | |
US10176616B2 (en) | Automatic capture and refinement of a digital image of a group of people without user intervention | |
US20160148054A1 (en) | Fast Object Tracking Framework For Sports Video Recognition | |
US11049256B2 (en) | Image processing apparatus, image processing method, and storage medium | |
CN105095853B (en) | Image processing apparatus and image processing method | |
KR101895846B1 (en) | Facilitating television based interaction with social networking tools | |
CN110730381A (en) | Method, device, terminal and storage medium for synthesizing video based on video template | |
WO2014074959A1 (en) | Real-time face detection using pixel pairs | |
CN114511041A (en) | Model training method, image processing method, device, equipment and storage medium | |
US11647294B2 (en) | Panoramic video data process | |
US9767533B2 (en) | Image resolution enhancement based on data from related images | |
CN106485246B (en) | Character identifying method and device | |
JP6511950B2 (en) | Image processing apparatus, image processing method and program | |
CN111274447A (en) | Target expression generation method, device, medium and electronic equipment based on video | |
CN117121051A (en) | Privacy filter based on real-time machine learning for removing reflective features from images and video | |
JP2014229092A (en) | Image processing device, image processing method and program therefor | |
JP2012033054A (en) | Device and method for producing face image sample, and program | |
CN112085025B (en) | Object segmentation method, device and equipment | |
CN115004245A (en) | Target detection method, target detection device, electronic equipment and computer storage medium | |
KR102151748B1 (en) | Method, apparatus and computer-readable recording medium for seperating the human and the background from the video | |
CN112991419A (en) | Parallax data generation method and device, computer equipment and storage medium | |
JP5283267B2 (en) | Content identification method and apparatus |