JP2012160011A - Thumbnail extraction program and thumbnail extraction method - Google Patents

Thumbnail extraction program and thumbnail extraction method Download PDF

Info

Publication number
JP2012160011A
JP2012160011A JP2011019158A JP2011019158A JP2012160011A JP 2012160011 A JP2012160011 A JP 2012160011A JP 2011019158 A JP2011019158 A JP 2011019158A JP 2011019158 A JP2011019158 A JP 2011019158A JP 2012160011 A JP2012160011 A JP 2012160011A
Authority
JP
Japan
Prior art keywords
frame image
pair
frame
feature point
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011019158A
Other languages
Japanese (ja)
Other versions
JP5516444B2 (en
Inventor
Susumu Endo
進 遠藤
Masaki Ishihara
正樹 石原
Takayuki Baba
孝之 馬場
Yusuke Uehara
祐介 上原
Daiki Masumoto
大器 増本
Shugo Nakamura
秋吾 中村
Masahiko Sugimura
昌彦 杉村
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011019158A priority Critical patent/JP5516444B2/en
Publication of JP2012160011A publication Critical patent/JP2012160011A/en
Application granted granted Critical
Publication of JP5516444B2 publication Critical patent/JP5516444B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a thumbnail extraction program and a thumbnail extraction method that are capable of extracting a thumbnail suitable for three-dimensional video.SOLUTION: A thumbnail extraction program causes a computer to execute processing for: extracting feature points corresponding between a frame image pair constituting one frame of 3D video from the frame image pair as a feature point pair; calculating a depth amount of the feature point pair based on a distance between points of the feature point pair, a distance between lenses, and a focal length, and clustering the feature point pair using the depth amount; evaluating stereoscopic visibility of one or more frame image pairs from clustering result information of the one or more frame image pairs on the basis of a predetermined evaluation condition of stereoscopic visibility of a frame image pair based on clustering result information; and extracting a pair of the frame image with the most excellent evaluation result as a pair of the frame image for a thumbnail based on the evaluation result of stereoscopic visibility.

Description

本発明は映像からサムネイルを抽出するサムネイル抽出プログラム及びサムネイル抽出方法に関する。   The present invention relates to a thumbnail extraction program and a thumbnail extraction method for extracting thumbnails from video.

近年、携帯電話やビデオカメラ等には映像が大量に蓄積されるようになった。このように映像が大量に蓄積された携帯電話やビデオカメラ等では必要な映像を検索したいという要望がある。   In recent years, a large amount of video has been accumulated in mobile phones and video cameras. There is a demand for searching for necessary images in a mobile phone, a video camera, or the like in which a large amount of images is stored in this way.

従来、映像を検索する場合は、例えば映像に付加されたメタデータ等で検索する方法が利用されている。しかし、映像に付加されたメタデータ等で検索する方法では映像を絞り込むことができない場合も多かった。結局、映像を検索する場合は一つ一つ再生しながら確認する場合が多い。   Conventionally, when searching for a video, for example, a search method using metadata added to the video is used. However, there are many cases where the video cannot be narrowed down by a method of searching with metadata added to the video. After all, when searching for video, there are many cases where confirmation is made while playing back one by one.

また、従来、映像を検索する場合は、映像から抽出したサムネイルを表示することで映像の内容を把握させる方法も利用されている。サムネイルとは利用者に映像の内容を把握させるための画像である。映像の検索にサムネイルを利用する場合は映像一つ当たりのサムネイルの数を増やすことができないため、より良いサムネイル抽出手法が必要とされていた(例えば特許文献1参照)。   Conventionally, when searching for a video, a method of grasping the content of the video by displaying a thumbnail extracted from the video is also used. A thumbnail is an image that allows the user to grasp the content of the video. When thumbnails are used for video search, since the number of thumbnails per video cannot be increased, a better thumbnail extraction method is required (see, for example, Patent Document 1).

その他のサムネイル抽出手法としては、映像の先頭フレームや映像の先頭からあらかじめ決められた秒数後のフレームからサムネイルを抽出する方法や、CM検出手法と組み合わせて、CM以外の部分からサムネイルを抽出する方法、映像の切り替わりであるカットを検出して、そのカット画像をサムネイルとして抽出する方法、顔検出手法と組み合わせて顔のアップ画像をサムネイルとして抽出する手法などが存在する。   Other thumbnail extraction methods include a method of extracting thumbnails from the first frame of a video or a frame after a predetermined number of seconds from the top of the video, or a thumbnail from a portion other than the CM in combination with a CM detection method. There are a method, a method of detecting a cut that is a video change and extracting the cut image as a thumbnail, and a method of extracting an up image of a face as a thumbnail in combination with a face detection method.

特開2005−294904号公報JP 2005-294904 A

現在、携帯電話やビデオカメラ等には3次元(3D)映像を扱える製品が出現し始めている。したがって、将来的に、携帯電話やビデオカメラ等には3D映像が大量に蓄積されること考えられる。このように3D映像が大量に蓄積された携帯電話やビデオカメラ等では必要な3D映像を検索したいという要望が増加すると考えられる。   Currently, products that can handle three-dimensional (3D) images have begun to appear in mobile phones and video cameras. Therefore, it is conceivable that a large amount of 3D images will be accumulated in the future in mobile phones, video cameras and the like. In this way, it is considered that there is an increasing demand for searching for a necessary 3D video in a mobile phone or a video camera in which a large amount of 3D video is accumulated.

しかし、上記したような2次元(2D)映像を検索する場合の問題は、3D映像を検索する場合にも発生すると考えられる。つまり、3D映像を検索する場合も、3D映像から抽出したサムネイルを表示することで映像の内容を把握させる方法が利用されると考えられる。   However, it is considered that the problem in searching for a two-dimensional (2D) video as described above also occurs when searching for a 3D video. That is, even when searching for a 3D video, it is considered that a method of grasping the content of the video by displaying thumbnails extracted from the 3D video is used.

しかし、従来の2D映像を対象としたサムネイル抽出手法は、3D映像に適したサムネイルを抽出できるものではないという問題があった。   However, the conventional thumbnail extraction method for 2D video has a problem that thumbnails suitable for 3D video cannot be extracted.

本実施形態は3次元映像に適したサムネイルを抽出できるサムネイル抽出プログラム及びサムネイル抽出方法を提供することを目的とする。   An object of the present embodiment is to provide a thumbnail extraction program and a thumbnail extraction method capable of extracting thumbnails suitable for 3D video.

上記課題を解決するため、本実施形態は、3D映像の一フレームを構成するフレーム画像ペア間で対応する特徴点を特徴点ペアとして前記フレーム画像ペアから抽出し、前記特徴点ペアの奥行き量を前記特徴点ペアの点間距離、所定のレンズ間距離・焦点距離を基に算出して、前記奥行き量で前記特徴点ペアをクラスタリングし、予め定められたクラスタリングの結果情報に基づく前記フレーム画像ペアの立体的な見え易さの評価条件を基に、1以上の前記フレーム画像ペアのクラスタリングの結果情報から前記1以上のフレーム画像ペアの立体的な見え易さを評価し、前記1以上のフレーム画像ペアの立体的な見え易さの評価結果に基づき、前記評価結果の最も良い前記フレーム画像ペアを、サムネイル用の前記フレーム画像ペアとして抽出する処理をコンピュータに実行させるサムネイル抽出プログラムである。   In order to solve the above-described problem, the present embodiment extracts a feature point corresponding to a pair of frame images constituting one frame of 3D video as a feature point pair from the frame image pair, and calculates the depth amount of the feature point pair. The frame image pair is calculated based on a distance between points of the feature point pair, a predetermined inter-lens distance / focal length, and clustering the feature point pairs based on the depth amount, and based on predetermined clustering result information The stereoscopic visibility of the one or more frame image pairs is evaluated from the result information of the clustering of the one or more frame image pairs based on the evaluation condition of the stereoscopic visibility of the one or more frames, and the one or more frames Based on the evaluation result of the three-dimensional visibility of the image pair, the frame image pair having the best evaluation result is extracted as the frame image pair for the thumbnail. A thumbnail extraction program for executing the processing to computers.

なお、本実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。   In addition, what applied the arbitrary combination of the component of this embodiment, expression, or a component to a method, an apparatus, a system, a computer program, a recording medium, a data structure, etc. is also effective as an aspect of this invention.

本実施形態によれば3次元映像に適したサムネイルを抽出できるサムネイル抽出プログラム及びサムネイル抽出方法を提供可能である。   According to the present embodiment, it is possible to provide a thumbnail extraction program and a thumbnail extraction method capable of extracting thumbnails suitable for 3D video.

PCの一例のハードウェア構成図である。It is a hardware block diagram of an example of PC. 本実施例のサムネイル抽出装置の一例の機能ブロック図である。It is a functional block diagram of an example of the thumbnail extraction apparatus of a present Example. 本実施例のサムネイル抽出装置の一例のフローチャートである。It is a flowchart of an example of the thumbnail extraction apparatus of a present Example. 映像情報テーブルの一例の構成図である。It is a block diagram of an example of a video information table. フレーム情報テーブルの一例の構成図である。It is a block diagram of an example of a frame information table. 3D映像の一フレームを構成する2枚の画像の一例のイメージ図である。It is an image figure of an example of two pictures which constitute one frame of 3D video. 局所特徴量テーブルの一例の構成図である。It is a block diagram of an example of a local feature-value table. 抽出した特徴点を視覚的に表したフレーム画像の一例のイメージ図である。It is an image figure of an example of the frame image which expressed the extracted feature point visually. 対応点テーブルの一例の構成図である。It is a block diagram of an example of a corresponding point table. 対応点テーブルの他の例の構成図である。It is a block diagram of the other example of a corresponding point table. Z値ヒストグラムテーブルの一例の構成図である。It is a block diagram of an example of a Z value histogram table. 対応点ヒストグラムテーブルの一例の構成図である。It is a block diagram of an example of a corresponding point histogram table. Z値クラスタテーブルの一例の構成図である。It is a block diagram of an example of a Z value cluster table. 対応点クラスタテーブルの一例の構成図である。It is a block diagram of an example of a corresponding point cluster table. フレーム評価テーブルの一例の構成図である。It is a block diagram of an example of a frame evaluation table. 3Dカメラを上から見た場合の一例の模式図である。It is a schematic diagram of an example at the time of seeing a 3D camera from the top. 視差によるZ値の算出方法の一例のイメージ図である。It is an image figure of an example of the calculation method of Z value by parallax. ステップS3の処理の一例のフローチャートである。It is a flowchart of an example of a process of step S3. 計算した各ビンの値を表す一例のヒストグラムである。It is an example histogram showing the value of each bin calculated. 各クラスタに含まれる対応点を視覚的に表したフレーム画像の一例のイメージ図である。It is an image figure of an example of the frame picture which expressed the corresponding point contained in each cluster visually. ステップS4の処理の一例のフローチャートである。It is a flowchart of an example of a process of step S4. ステップS5の処理の一例のフローチャートである。It is a flowchart of an example of a process of step S5. ステップS28の処理の一例のフローチャートである。It is a flowchart of an example of a process of step S28. 本実施例のサムネイル抽出装置の他の例の機能ブロック図である。It is a functional block diagram of the other example of the thumbnail extraction apparatus of a present Example. ステップS5の処理の他の例のフローチャートである。It is a flowchart of the other example of a process of step S5.

次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。本実施例のサムネイル抽出プログラムはパーソナルコンピュータ(PC)で実行される他、携帯電話やビデオカメラ等、3D映像を扱う様々な機器で実行される。本実施例ではPCでサムネイル抽出プログラムを実行する例を説明する。PCは例えば図1に示すハードウェアにより構成される。図1はPCの一例のハードウェア構成図である。   Next, modes for carrying out the present invention will be described based on the following embodiments with reference to the drawings. The thumbnail extraction program of this embodiment is executed by a personal computer (PC) and various devices that handle 3D video such as a mobile phone and a video camera. In this embodiment, an example in which a thumbnail extraction program is executed on a PC will be described. The PC is configured by, for example, hardware shown in FIG. FIG. 1 is a hardware configuration diagram of an example of a PC.

図1のPC10は入力装置21、表示装置22、PC本体23を有している。PC本体23はバス37で相互に接続された主記憶装置31、演算処理装置32、インタフェース装置33、記録媒体読取装置34及び補助記憶装置35を有している。また、バス37には入力装置21及び表示装置22が接続されている。   1 includes an input device 21, a display device 22, and a PC main body 23. The PC main body 23 includes a main storage device 31, an arithmetic processing device 32, an interface device 33, a recording medium reading device 34, and an auxiliary storage device 35 connected to each other via a bus 37. The input device 21 and the display device 22 are connected to the bus 37.

バス37で相互に接続されている入力装置21、表示装置22、主記憶装置31、演算処理装置32、インタフェース装置33、記録媒体読取装置34及び補助記憶装置35は演算処理装置32による管理下で相互にデータの送受を行うことができる。演算処理装置32は、PC10全体の動作制御を司る中央処理装置である。   The input device 21, the display device 22, the main storage device 31, the arithmetic processing device 32, the interface device 33, the recording medium reading device 34, and the auxiliary storage device 35 connected to each other via the bus 37 are managed by the arithmetic processing device 32. Data can be sent and received between each other. The arithmetic processing unit 32 is a central processing unit that controls operation of the entire PC 10.

インタフェース装置33はネットワーク等からのデータを受信し、データの内容を演算処理装置32に渡す。インタフェース装置33は演算処理装置32からの指示に応じてネットワーク等にデータを送信する。   The interface device 33 receives data from a network or the like and passes the contents of the data to the arithmetic processing device 32. The interface device 33 transmits data to a network or the like in response to an instruction from the arithmetic processing device 32.

補助記憶装置35にはサムネイル抽出装置と同様の機能をPC10に発揮させるプログラムの一部として、少なくともサムネイル抽出装置における処理をPC10に実行させるサムネイル抽出プログラムが記憶されている。そして、演算処理装置32がサムネイル抽出プログラムを補助記憶装置35から読み出して実行することで、PC10はサムネイル抽出装置として機能するようになる。サムネイル抽出プログラムは演算処理装置32とアクセス可能な主記憶装置31に格納されていても良い。入力装置21は演算処理装置32の管理下でデータの入力を受付ける。サムネイル抽出プログラムはPC10が読み取り可能な記録媒体36に記録しておくことができる。   The auxiliary storage device 35 stores a thumbnail extraction program that causes the PC 10 to execute at least processing in the thumbnail extraction device as part of a program that causes the PC 10 to perform the same function as the thumbnail extraction device. Then, when the arithmetic processing device 32 reads out and executes the thumbnail extraction program from the auxiliary storage device 35, the PC 10 functions as a thumbnail extraction device. The thumbnail extraction program may be stored in the main storage device 31 accessible to the arithmetic processing device 32. The input device 21 receives data input under the control of the arithmetic processing device 32. The thumbnail extraction program can be recorded in a recording medium 36 that can be read by the PC 10.

記録媒体36には、磁気記録媒体、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録媒体には、HDD、フレキシブルディスク(FD)、磁気テープ(MT)などがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc − Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。また、光磁気記録媒体には、MO(Magneto − Optical disk)などがある。   Examples of the recording medium 36 include a magnetic recording medium, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Magnetic recording media include HDDs, flexible disks (FD), magnetic tapes (MT) and the like. Examples of the optical disc include a DVD (Digital Versatile Disc), a DVD-RAM, a CD-ROM (Compact Disc-Read Only Memory), and a CD-R (Recordable) / RW (ReWriteable). Magneto-optical recording media include MO (Magneto-Optical disk).

サムネイル抽出プログラムを流通させる場合は、サムネイル抽出プログラムが記録されたDVD、CD−ROMなどの可搬型の記録媒体36を販売することが考えられる。サムネイル抽出プログラムを実行するPC10は例えば記録媒体読取装置34がサムネイル抽出プログラムを記録した記録媒体36からサムネイル抽出プログラムを読み出す。演算処理装置32は、読み出されたサムネイル抽出プログラムを主記憶装置31若しくは補助記憶装置35に格納する。   When distributing the thumbnail extraction program, it is conceivable to sell a portable recording medium 36 such as a DVD or CD-ROM in which the thumbnail extraction program is recorded. For example, the PC 10 executing the thumbnail extraction program reads the thumbnail extraction program from the recording medium 36 on which the recording medium reader 34 has recorded the thumbnail extraction program. The arithmetic processing device 32 stores the read thumbnail extraction program in the main storage device 31 or the auxiliary storage device 35.

PC10は自己の記憶装置である主記憶装置31若しくは補助記憶装置35からサムネイル抽出プログラムを読み取り、サムネイル抽出プログラムに従った処理を実行する。演算処理装置32はサムネイル抽出プログラムに従って、後述するような各種処理を実現している。   The PC 10 reads the thumbnail extraction program from the main storage device 31 or the auxiliary storage device 35 which is its own storage device, and executes processing according to the thumbnail extraction program. The arithmetic processing unit 32 implements various processes as described later according to the thumbnail extraction program.

以下では、少なくともPC10にサムネイル抽出プログラムがインストールされているサムネイル抽出装置40を例に説明していく。   Hereinafter, at least the thumbnail extraction apparatus 40 in which the thumbnail extraction program is installed in the PC 10 will be described as an example.

図2は本実施例のサムネイル抽出装置の一例の機能ブロック図である。図2のサムネイル抽出装置40は、フレーム画像取得部41、特徴点抽出部42、局所特徴抽出部43、特徴点ペア抽出部44、奥行きクラスタリング部45、サムネイル評価部46、サムネイル抽出部47、映像情報テーブル51、フレーム情報テーブル52、局所特徴量テーブル53、対応点テーブル54、Z値ヒストグラムテーブル55、対応点ヒストグラムテーブル56、Z値クラスタテーブル57、対応点クラスタテーブル58、フレーム評価テーブル59を有する。   FIG. 2 is a functional block diagram of an example of the thumbnail extraction apparatus according to the present embodiment. 2 includes a frame image acquisition unit 41, a feature point extraction unit 42, a local feature extraction unit 43, a feature point pair extraction unit 44, a depth clustering unit 45, a thumbnail evaluation unit 46, a thumbnail extraction unit 47, and a video. An information table 51, a frame information table 52, a local feature table 53, a corresponding point table 54, a Z value histogram table 55, a corresponding point histogram table 56, a Z value cluster table 57, a corresponding point cluster table 58, and a frame evaluation table 59. .

ここでは図2の機能ブロックの概要について説明する。フレーム画像取得部41は3D映像の一フレームを構成する2枚の画像を取得する。特徴点抽出部42は画像から特徴点を抽出する。局所特徴抽出部43は画像から特徴点の局所特徴量を抽出する。特徴点ペア抽出部44は3D映像の一フレームを構成する2枚の画像の特徴点のペアを抽出する。   Here, an outline of the functional block of FIG. 2 will be described. The frame image acquisition unit 41 acquires two images constituting one frame of 3D video. The feature point extraction unit 42 extracts feature points from the image. The local feature extraction unit 43 extracts local feature amounts of feature points from the image. The feature point pair extraction unit 44 extracts a pair of feature points of two images constituting one frame of 3D video.

奥行きクラスタリング部45は特徴点ペアから算出される奥行き距離で特徴点をクラスタリングする。サムネイル評価部46はクラスタリングの結果を元に、フレームの立体らしさの値(評価値)を算出する。サムネイル抽出部47はフレームの立体らしさの値が一番高いフレームをサムネイル用のフレームとして抽出する。   The depth clustering unit 45 clusters the feature points by the depth distance calculated from the feature point pairs. The thumbnail evaluation unit 46 calculates a three-dimensional value (evaluation value) of the frame based on the clustering result. The thumbnail extracting unit 47 extracts a frame having the highest frame solidity value as a thumbnail frame.

映像情報テーブル51は3D映像の情報を保存する。フレーム情報テーブル52は3D映像の一フレームを構成する2枚の画像を関連付けて保存する。局所特徴量テーブル53は3D映像の一フレームを構成する2枚の画像から抽出された特徴点の局所特徴量を保存する。   The video information table 51 stores 3D video information. The frame information table 52 associates and stores two images constituting one frame of 3D video. The local feature quantity table 53 stores the local feature quantities of feature points extracted from two images constituting one frame of 3D video.

対応点テーブル54は、3D映像の一フレームを構成する2枚の画像から抽出された特徴点のペアを対応点として保存すると共に、その対応点の距離値を保存する。距離値とは3D映像の一フレームを構成する2枚の画像を重畳したときの特徴点のペアの間の距離をいう。なお、対応点テーブル54は対応点、その対応点の距離値に加えて対応点の奥行き距離(Z値)を保存するようにしてもよい。   The corresponding point table 54 stores a pair of feature points extracted from two images constituting one frame of the 3D video as corresponding points, and stores a distance value of the corresponding points. The distance value is a distance between a pair of feature points when two images constituting one frame of 3D video are superimposed. The corresponding point table 54 may store the corresponding points and the depth distances (Z values) of the corresponding points in addition to the distance values of the corresponding points.

Z値ヒストグラムテーブル55は複数定められたZ値の範囲にある対応点の個数を保存する。対応点ヒストグラムテーブル56は対応点と、その対応点が格納されたZ値の範囲とを関連付けて保存する。   The Z value histogram table 55 stores the number of corresponding points in a plurality of Z value ranges. The corresponding point histogram table 56 stores the corresponding points in association with the Z value range in which the corresponding points are stored.

Z値クラスタテーブル57はZ値のヒストグラムのピークと、そのピークの前後のZ値の範囲とを併せたクラスタを保存する。対応点クラスタテーブル58は対応点と、その対応点が格納されたクラスタとを関連付けて保存する。また、フレーム評価テーブル59は各フレームの立体らしさの値(評価値)を保存する。   The Z value cluster table 57 stores a cluster that combines the peaks of the Z value histogram and the range of Z values before and after the peak. The corresponding point cluster table 58 stores the corresponding points in association with the clusters in which the corresponding points are stored. Further, the frame evaluation table 59 stores the solidity value (evaluation value) of each frame.

図3は本実施例のサムネイル抽出装置の一例のフローチャートである。ステップS1において、フレーム画像取得部41は3D映像の画像(フレーム画像)を取得する。3D映像の各フレームは、位置が少しずれた地点から見た2枚の画像(フレーム画像)で構成される。3D映像におけるフレーム画像の位置のずれは、あまり大きくないことがほとんどである。3D映像におけるフレーム画像は、かなり似通った画像となる。   FIG. 3 is a flowchart of an example of the thumbnail extraction apparatus according to this embodiment. In step S1, the frame image acquisition unit 41 acquires a 3D video image (frame image). Each frame of 3D video is composed of two images (frame images) viewed from a point slightly shifted in position. In most cases, the displacement of the position of the frame image in the 3D video is not so large. The frame images in the 3D video are considerably similar images.

取得元の3D映像に関して特に制約はない。3D映像はテレビ映像や、3Dカメラでライブ撮影された映像でもかまわないし、Blu−ray3Dのようなファイルに保存された映像でもかまわない。また、3D映像の格納方式についても特に制約はない。3D映像の格納方式は、Side−by−Side(左右の画像を横に並べて一つの画像として保存)やFrame alternative(右と左画像を交互に保存)などを利用することができる。   There are no particular restrictions on the 3D video of the acquisition source. The 3D video may be a TV video, a video captured live with a 3D camera, or a video stored in a file such as Blu-ray 3D. There is no particular restriction on the 3D video storage method. As a 3D video storage method, Side-by-Side (left and right images are stored side by side and stored as a single image), Frame alternative (right and left images are stored alternately), and the like can be used.

3D映像に関しては、映像の幅や高さ、フレーム数などの映像情報を利用できるようにする。これらの映像情報は映像情報テーブル51のような形で保存できる。図4は映像情報テーブルの一例の構成図である。図4の映像情報テーブル51はデータ項目として映像番号、幅、高さ、フレーム数を有する。   For 3D video, video information such as the width and height of the video and the number of frames is made available. Such video information can be stored in the form of a video information table 51. FIG. 4 is a configuration diagram of an example of the video information table. The video information table 51 of FIG. 4 has video numbers, widths, heights, and frame numbers as data items.

映像番号は3D映像の識別子である。幅は3D映像の幅である。高さは3D映像の高さである。フレーム数は3D映像のフレーム数である。なお、フレーム数に関してはライブ映像などで取得できない場合もある。その場合はフレーム数を利用しないようにすることもできる。例えばフレーム数が取得できない場合は先頭から指定フレーム以内のフレームからサムネイルを抽出するようにすれば、問題なく処理を行うことができる。   The video number is a 3D video identifier. The width is the width of the 3D video. The height is the height of the 3D video. The number of frames is the number of 3D video frames. Note that the number of frames may not be acquired with live video. In that case, it is possible not to use the number of frames. For example, if the number of frames cannot be acquired, processing can be performed without problems by extracting thumbnails from frames within a specified frame from the beginning.

なお、以降の処理は3D映像ごとに独立であるため、一つの3D映像に対する処理を記述する。フレーム画像取得部41は必ずしも3D映像の全てのフレームを抽出する必要はなく、3D映像の一部のフレームを抽出すればよい。フレーム画像取得部41は、カット検出手法と組み合わせて画像を抽出する方法や、一定間隔の画像を抽出する方法、CM検出手法、顔検出手法などの他の解析手法と組み合わせて画像を抽出する方法などが考えられる。   Since the subsequent processing is independent for each 3D video, the processing for one 3D video is described. The frame image acquisition unit 41 does not necessarily need to extract all the frames of the 3D video, and may extract a part of the frames of the 3D video. The frame image acquisition unit 41 extracts an image in combination with a cut detection method, a method for extracting images at regular intervals, a CM detection method, a face detection method, or another analysis method. And so on.

フレーム画像取得部41は、取得したフレーム画像をフレーム情報テーブル52に保存する。図5はフレーム情報テーブルの一例の構成図である。図5のフレーム情報テーブル52はデータ項目としてフレーム番号、左画像、右画像を有する。   The frame image acquisition unit 41 stores the acquired frame image in the frame information table 52. FIG. 5 is a configuration diagram of an example of the frame information table. The frame information table 52 in FIG. 5 has a frame number, a left image, and a right image as data items.

フレーム番号は、フレームの識別子である。左画像は、フレームを構成する左画像(左フレーム画像)の識別子である。また、右画像はフレームを構成する右画像(右フレーム画像)の識別子である。   The frame number is a frame identifier. The left image is an identifier of a left image (left frame image) constituting the frame. The right image is an identifier of the right image (right frame image) constituting the frame.

図6は3D映像の一フレームを構成する2枚の画像の一例のイメージ図である。図6に示すように、左フレーム画像100及び右フレーム画像101は、かなり似通った画像となる。   FIG. 6 is an image diagram of an example of two images constituting one frame of 3D video. As shown in FIG. 6, the left frame image 100 and the right frame image 101 are quite similar images.

図3のステップS2において、特徴点抽出部42はステップS1で取得したフレーム情報テーブル52内の一つのフレームの左フレーム画像100、右フレーム画像101に対して、それぞれ、特徴点を抽出する。また、局所特徴抽出部43は抽出された特徴点の特徴量を局所特徴量として抽出する。   In step S2 of FIG. 3, the feature point extraction unit 42 extracts feature points from the left frame image 100 and the right frame image 101 of one frame in the frame information table 52 acquired in step S1, respectively. Further, the local feature extraction unit 43 extracts the feature quantity of the extracted feature points as a local feature quantity.

特徴点抽出方法について、特に限定は行わない。単純な特徴点抽出方法としては、Sobelエッジ抽出手法、Cannyエッジ抽出手法などの各種エッジ検出手法やHarrisコーナー手法などのコーナー検出手法などがある。Sobelエッジ抽出手法は例えば「高木幹雄,下田陽久:新編画像解析ハンドブック,東京大学出版会,2004.」などに記載されている。Cannyエッジ抽出手法は例えば「CANNY J.,"A Computational Approach to Edge Detection," IEEE Trans. on Pattern Analysis and Machine Intelligence, 8(6), pp. 679-698, 1986」などに記載されている。Harrisコーナー手法は例えば「C.Harris, M.Stephens, "A COMBINED CORNER AND EDGE DETECTOR," Proc. of 4th Alvey vision Conference, pp.147-151, 1988」などに記載されている。   The feature point extraction method is not particularly limited. As simple feature point extraction methods, there are various edge detection methods such as a Sobel edge extraction method and a Canny edge extraction method, and corner detection methods such as a Harris corner method. The Sobel edge extraction method is described in, for example, “Mikio Takagi, Yoshihisa Shimoda: New Image Analysis Handbook, University of Tokyo Press, 2004”. The Canny edge extraction method is described in, for example, “CANNY J.,“ A Computational Approach to Edge Detection, ”IEEE Trans. On Pattern Analysis and Machine Intelligence, 8 (6), pp. 679-698, 1986”. The Harris corner method is described in, for example, “C. Harris, M. Stephens,“ A COMBINED CORNER AND EDGE DETECTOR, ”Proc. Of 4th Alvey vision Conference, pp. 147-151, 1988”.

また、局所特徴量抽出手法についても、特に限定は行わない。局所特徴量は特徴点付近の画像から抽出することが考えられる。局所特徴量抽出手法としては、色ヒストグラムなどの手法が使用できる。色ヒストグラムの手法は例えば「高木幹雄,下田陽久:新編画像解析ハンドブック,東京大学出版会,2004.」などに記載されている。   Further, the local feature amount extraction method is not particularly limited. It is conceivable that the local feature amount is extracted from an image near the feature point. As a local feature extraction method, a method such as a color histogram can be used. The method of the color histogram is described in, for example, “Mikio Takagi, Yoshihisa Shimoda: New Image Analysis Handbook, University of Tokyo Press, 2004”.

また、特徴点抽出方法、局所特徴量抽出手法としては、SIFT(US Patent 6,711,293)などを使用した方法も考えられる。SIFTは例えば「D.G.Lowe, "Object recognition from local scale-invariant features," Proc. of IEEE Int. Conf. on. Computer Vision (ICCV) pp.1150-1157, 1999.」などに記載されている。   Further, as a feature point extraction method and a local feature quantity extraction method, a method using SIFT (US Patent 6,711,293) or the like is also conceivable. SIFT is described in, for example, “D.G. Lowe,“ Object recognition from local scale-invariant features, ”Proc. Of IEEE Int. Conf. On. Computer Vision (ICCV) pp. 1150-1157, 1999.

SIFTでは、画像にガウスぼかしをかけた場合の差分(Difference of Gaussian)を算出し、その極大点を特徴点とし、そこから、勾配の方向を元にした、局所特徴量を抽出する。同様の局所特徴抽出手法としてはSURFなども利用できる。SURFは、例えば「BAY H., "SURF : Speeded up robust features," Proc. 9th ECCV, May 2006, Graz, Austria 1, 404-417, 2006」などに記載されている。なお、抽出された特徴量(局所特徴量)は、実数値の配列(ベクトル)形式になる。   In SIFT, the difference (Difference of Gaussian) when Gaussian blurring is applied to an image is calculated, and the local maximum is extracted from the maximum point as a feature point. As a similar local feature extraction method, SURF or the like can be used. SURF is described in, for example, “BAY H.,“ SURF: Speeded up robust features, ”Proc. 9th ECCV, May 2006, Graz, Austria 1, 404-417, 2006”. The extracted feature quantity (local feature quantity) is in the form of a real value array (vector).

特徴点抽出部42及び局所特徴抽出部43は、抽出した特徴点及び局所特徴量を局所特徴量テーブル53に保存する。図7は局所特徴量テーブルの一例の構成図である。図7の局所特徴量テーブル53はデータ項目としてフレーム番号、画像番号、特徴量番号、X座標、Y座標、特徴量を有する。   The feature point extraction unit 42 and the local feature extraction unit 43 store the extracted feature points and local feature amounts in the local feature amount table 53. FIG. 7 is a configuration diagram of an example of the local feature table. The local feature quantity table 53 of FIG. 7 has a frame number, an image number, a feature quantity number, an X coordinate, a Y coordinate, and a feature quantity as data items.

フレーム番号は、フレームの識別子である。画像番号は、右フレーム画像と左フレーム画像との識別子である。特徴量番号は特徴点の識別子である。X座標は特徴点のX座標である。Y座標は特徴点のY座標である。特徴量は、特徴点の特徴量である。   The frame number is a frame identifier. The image number is an identifier between the right frame image and the left frame image. The feature quantity number is an identifier of a feature point. The X coordinate is the X coordinate of the feature point. The Y coordinate is the Y coordinate of the feature point. The feature amount is a feature amount of a feature point.

図8は抽出した特徴点を視覚的に表したフレーム画像の一例のイメージ図である。図8では特徴点を「○」で表している。図8に示すように、左フレーム画像100及び右フレーム画像101は複数の特徴点が抽出されている。なお、左フレーム画像100及び右フレーム画像101上に表された特徴点は図7の局所特徴量テーブル53に応じたものとなる。   FIG. 8 is an image diagram of an example of a frame image that visually represents the extracted feature points. In FIG. 8, the feature points are represented by “◯”. As shown in FIG. 8, a plurality of feature points are extracted from the left frame image 100 and the right frame image 101. Note that the feature points represented on the left frame image 100 and the right frame image 101 correspond to the local feature table 53 of FIG.

図3のステップS3において、特徴点ペア抽出部44は局所特徴量テーブル53を参照して、後述のように同一フレームの右フレーム画像及び左フレーム画像から特徴点のペアを抽出する。特徴点ペア抽出部44は抽出した特徴点のペアを対応点として対応点テーブル54に保存する。   In step S3 of FIG. 3, the feature point pair extraction unit 44 refers to the local feature amount table 53 and extracts a feature point pair from the right frame image and the left frame image of the same frame as described later. The feature point pair extraction unit 44 stores the extracted feature point pairs in the corresponding point table 54 as corresponding points.

図9は対応点テーブルの一例の構成図である。図9の対応点テーブル54はデータ項目としてフレーム番号、対応点番号、右フレーム画像101の特徴点番号、左フレーム画像100の特徴点番号、距離値を有する。フレーム番号は、フレームの識別子である。対応点番号は、対応点の識別子である。右フレーム画像101の特徴点番号は、右フレーム画像101の特徴点の識別子である。左フレーム画像100の特徴点番号は、左フレーム画像100の特徴点の識別子である。距離値は、左フレーム画像100と右フレーム画像101とを重畳したときの、右フレーム画像101の特徴点番号により識別される特徴点と左フレーム画像100の特徴点番号により識別される特徴点との間の距離である。   FIG. 9 is a configuration diagram of an example of the corresponding point table. The corresponding point table 54 in FIG. 9 includes data items such as a frame number, a corresponding point number, a feature point number of the right frame image 101, a feature point number of the left frame image 100, and a distance value. The frame number is a frame identifier. The corresponding point number is an identifier of the corresponding point. The feature point number of the right frame image 101 is an identifier of the feature point of the right frame image 101. The feature point number of the left frame image 100 is an identifier of the feature point of the left frame image 100. The distance value includes a feature point identified by the feature point number of the right frame image 101 and a feature point identified by the feature point number of the left frame image 100 when the left frame image 100 and the right frame image 101 are superimposed. Is the distance between.

図10は対応点テーブルの他の例の構成図である。図10の対応点テーブル54は図9の対応点テーブル54のデータ項目にZ値が追加されている。Z値は局所特徴量テーブル53に保存されているX座標、対応点テーブル54に保存されている距離値から後述のように算出される。Z値は対応点の奥行き距離を表している。   FIG. 10 is a configuration diagram of another example of the corresponding point table. In the corresponding point table 54 of FIG. 10, a Z value is added to the data item of the corresponding point table 54 of FIG. The Z value is calculated from the X coordinate stored in the local feature table 53 and the distance value stored in the corresponding point table 54 as described later. The Z value represents the depth distance of the corresponding point.

図3のステップS4において、奥行きクラスタリング部45は図9の対応点テーブル54に保存されている距離値又は図10の対応点テーブル54に保存されているZ値を元に後述のクラスタリング処理を行い、近い奥行き距離の対応点のグループを作成する。奥行きクラスタリング部45はクラスタリング処理の結果を、図11に示すZ値ヒストグラムテーブル55、図12に示す対応点ヒストグラムテーブル56、図13に示すZ値クラスタテーブル57、図14に示す対応点クラスタテーブル58に保存する。   In step S4 in FIG. 3, the depth clustering unit 45 performs a clustering process described later based on the distance value stored in the corresponding point table 54 in FIG. 9 or the Z value stored in the corresponding point table 54 in FIG. Create a group of corresponding points of close depth distance. The depth clustering unit 45 displays the result of the clustering process as a Z value histogram table 55 shown in FIG. 11, a corresponding point histogram table 56 shown in FIG. 12, a Z value cluster table 57 shown in FIG. 13, and a corresponding point cluster table 58 shown in FIG. Save to.

図11はZ値ヒストグラムテーブルの一例の構成図である。図11のZ値ヒストグラムテーブル55はデータ項目としてフレーム番号、ビン番号、開始のZ値、終了のZ値、個数を有する。フレーム番号は、フレームの識別子である。ビン番号は、Z値の範囲(ヒストグラムのビン)の識別子である。開始のZ値は、ビンの開始のZ値である。終了のZ値は、ビンの終了のZ値である。個数はビンにある対応点の個数である。   FIG. 11 is a configuration diagram of an example of a Z value histogram table. The Z value histogram table 55 in FIG. 11 has a frame number, a bin number, a start Z value, an end Z value, and the number as data items. The frame number is a frame identifier. The bin number is an identifier of a range of Z values (histogram bins). The starting Z value is the starting Z value of the bin. The end Z value is the end Z value of the bin. The number is the number of corresponding points in the bin.

図12は対応点ヒストグラムテーブルの一例の構成図である。図12の対応点ヒストグラムテーブル56はデータ項目としてフレーム番号、対応点番号、ビン番号を有する。フレーム番号は、フレームの識別子である。対応点番号は、対応点の識別子である。ビン番号はビンの識別子である。   FIG. 12 is a configuration diagram of an example of the corresponding point histogram table. The corresponding point histogram table 56 of FIG. 12 has a frame number, a corresponding point number, and a bin number as data items. The frame number is a frame identifier. The corresponding point number is an identifier of the corresponding point. The bin number is an identifier of the bin.

図13はZ値クラスタテーブルの一例の構成図である。図13のZ値クラスタテーブル57はデータ項目としてフレーム番号、クラスタ番号、開始のZ値、終了のZ値、個数を有する。フレーム番号は、フレームの識別子である。クラスタ番号は、クラスタの識別子である。開始のZ値は、クラスタの開始のZ値である。終了のZ値は、クラスタの終了のZ値である。個数はクラスタにある対応点の個数である。   FIG. 13 is a configuration diagram of an example of the Z value cluster table. The Z value cluster table 57 of FIG. 13 has a frame number, a cluster number, a start Z value, an end Z value, and the number as data items. The frame number is a frame identifier. The cluster number is a cluster identifier. The starting Z value is the starting Z value of the cluster. The end Z value is the end Z value of the cluster. The number is the number of corresponding points in the cluster.

また、図14は対応点クラスタテーブルの一例の構成図である。図14の対応点クラスタテーブル58はデータ項目としてフレーム番号、対応点番号、クラスタ番号を有する。フレーム番号は、フレームの識別子である。対応点番号は、対応点の識別子である。クラスタ番号はクラスタの識別子である。   FIG. 14 is a configuration diagram of an example of the corresponding point cluster table. The corresponding point cluster table 58 of FIG. 14 has a frame number, a corresponding point number, and a cluster number as data items. The frame number is a frame identifier. The corresponding point number is an identifier of the corresponding point. The cluster number is a cluster identifier.

図3のステップS5において、サムネイル評価部46は後述するように、クラスタリングの結果を元に、フレームの立体らしさの値(評価値)を算出する。つまり、サムネイル評価部46は現在のフレームがサムネイルとして適しているかの評価値を算出する。   In step S5 of FIG. 3, the thumbnail evaluation unit 46 calculates a value (evaluation value) of the three-dimensionality of the frame based on the result of clustering, as will be described later. That is, the thumbnail evaluation unit 46 calculates an evaluation value as to whether the current frame is suitable as a thumbnail.

また、ステップS6において、サムネイル評価部46は算出したフレームの立体らしさの値(評価値)を図15に示すフレーム評価テーブル59に保存する。図15はフレーム評価テーブルの一例の構成図である。図15のフレーム評価テーブル59はデータ項目としてフレーム番号、評価値を有する。フレーム番号は、フレームの識別子である。評価値はフレームの立体らしさの値である。   In step S6, the thumbnail evaluation unit 46 stores the calculated three-dimensional value (evaluation value) of the frame in the frame evaluation table 59 shown in FIG. FIG. 15 is a configuration diagram of an example of a frame evaluation table. The frame evaluation table 59 in FIG. 15 has a frame number and an evaluation value as data items. The frame number is a frame identifier. The evaluation value is a value of the solidness of the frame.

また、ステップS7において、サムネイル評価部46は他に解析すべき(立体らしさの値を算出すべき)フレームがあるか否かを判定する。他に解析すべきフレームがあると判定すれば、サムネイル評価部46はフレーム画像取得部41にフレーム画像の取得を要求する。ステップS1〜S6の処理は解析すべきフレームの数だけ繰り返される。   In step S7, the thumbnail evaluation unit 46 determines whether there is another frame to be analyzed (a value of solidness should be calculated). If it is determined that there are other frames to be analyzed, the thumbnail evaluation unit 46 requests the frame image acquisition unit 41 to acquire a frame image. Steps S1 to S6 are repeated for the number of frames to be analyzed.

他に解析すべきフレームがないと判定すれば、サムネイル評価部46はサムネイル抽出部47にサムネイル用のフレームの抽出を要求する。ステップS8において、サムネイル抽出部47はフレーム評価テーブル59のフレームの立体らしさの値(評価値)が一番高いフレームをサムネイル用のフレームとして抽出する。なお、サムネイル抽出部47はサムネイルの抽出位置(3D映像の最初、最後など)を元にした重み付けを、例えば3D映像の種類によって行うようにしてもよい。   If it is determined that there are no other frames to be analyzed, the thumbnail evaluation unit 46 requests the thumbnail extraction unit 47 to extract thumbnail frames. In step S <b> 8, the thumbnail extracting unit 47 extracts the frame having the highest three-dimensionality value (evaluation value) of the frame in the frame evaluation table 59 as a thumbnail frame. Note that the thumbnail extraction unit 47 may perform weighting based on the thumbnail extraction position (first, last, etc. of 3D video) depending on the type of 3D video, for example.

図3のステップS3の処理の詳細は以下の通りである。特徴点ペア抽出部44は、局所特徴量テーブル53における、同一フレームの右フレーム画像及び左フレーム画像でそれぞれ抽出された特徴量間で関連付けを行う。   The details of the process of step S3 in FIG. 3 are as follows. The feature point pair extraction unit 44 associates the feature amounts extracted from the right frame image and the left frame image of the same frame in the local feature amount table 53, respectively.

右フレーム画像の特徴量番号集合をR、左フレーム画像の特徴量番号集合をLとした場合は以下の式(1)を満たす、i,jを見つける問題となる。ここで、f(i)は右フレーム画像のi番目の特徴量とする。f(j)は、左フレーム画像のj番目の特徴量とする。distは二つの特徴量間の距離関数とする。 When the feature quantity number set of the right frame image is R and the feature quantity number set of the left frame image is L, there is a problem of finding i and j that satisfy the following expression (1). Here, f R (i) is the i-th feature amount of the right frame image. f L (j) is the j-th feature amount of the left frame image. “dist” is a distance function between two feature quantities.

Figure 2012160011
Figure 2012160011

つまり、特徴点ペア抽出部44は右フレーム画像の特徴量と左フレーム画像の特徴量との間の全てのペアに対して特徴量間の距離を算出し、最小の距離のペア(i,j)を求めている。特徴点ペア抽出部44は、同時に、最小となるペアの特徴量間の距離(dist関数の戻り値)も保持する。特徴量間の距離が予め与えられた距離の閾値以下の場合は対応点として対応点テーブル54に保存する。   That is, the feature point pair extraction unit 44 calculates the distance between the feature amounts for all pairs between the feature amount of the right frame image and the feature amount of the left frame image, and sets the minimum distance pair (i, j ) At the same time, the feature point pair extraction unit 44 also holds the distance between the feature amounts of the minimum pair (return value of the dist function). When the distance between the feature amounts is equal to or less than a predetermined distance threshold value, it is stored in the corresponding point table 54 as a corresponding point.

また、式(1)では左フレーム画像と右フレーム画像の特徴量間の全てのマッチングを行っているが、高速化のため、ある一定距離のペアまでしか求めないようにしてもかまわない。   Further, in Expression (1), all the matching between the feature amounts of the left frame image and the right frame image is performed. However, only a certain distance pair may be obtained for speeding up.

例えば右フレーム画像のi番目の特徴点のX座標をx(i)とし、左フレーム画像のj番目の特徴点のX座標をx(j)とし、右フレーム画像のi番目の特徴点のY座標をy(i)とし、左フレーム画像のj番目の特徴点のY座標をy(j)とし、閾値としてT及びTを設定した場合は、以下の式(2)を満たすものだけを対象とする。 For example, the X coordinate of the i th feature point of the right frame image is x R (i), the X coordinate of the j th feature point of the left frame image is x L (j), and the i th feature point of the right frame image. Is set to y R (i), the Y coordinate of the j-th feature point of the left frame image is set to y L (j), and T x and T y are set as thresholds, the following equation (2) Only those that meet

Figure 2012160011
Figure 2012160011

一般的に、3D画像のカメラのレンズは左右に並んでいる。したがって、3D画像ではX座標における差分の方が大きいため、Tの方にTより大きな値を指定する。距離関数としては、一般的なユークリッド距離などの手法を用いることができる。また、局所特徴量ごとに適した距離関数を用いてもかまわない。 In general, the lenses of a 3D image camera are arranged side by side. Accordingly, since the difference in the X coordinate is larger in the 3D image, a value larger than T y is designated for T x . As the distance function, a general technique such as Euclidean distance can be used. A distance function suitable for each local feature may be used.

ユークリッド距離を用いる場合は以下の式(3)のようになる。式(3)は、2つのベクトルv及びvにおいて、次元数iの場合の値がそれぞれv(i)、v(j)であり、かつ、次元数がnの場合の例である。特徴点ペア抽出部44は、抽出した対応点の左右フレーム画像の特徴量番号(i,j)と、抽出した対応点の距離値とを対応点テーブル54に保存する。 When the Euclidean distance is used, the following equation (3) is obtained. Expression (3) is an example in which the values in the case of the number of dimensions i are v 1 (i) and v 2 (j), respectively, and the number of dimensions is n in the two vectors v 1 and v 2 . is there. The feature point pair extraction unit 44 stores the feature quantity number (i, j) of the extracted left and right frame images of the corresponding points and the distance value of the extracted corresponding points in the corresponding point table 54.

Figure 2012160011
Figure 2012160011

図10に示す対応点テーブルを用いる場合、特徴点ペア抽出部44は局所特徴量テーブル53に保存しているX座標及び対応点テーブル54に保存している距離値から、対応点として保存されている特徴点のZ値(奥行き距離)を算出する。なお、Z値の算出は以下の式(4)を用いて行うことができる。   When the corresponding point table shown in FIG. 10 is used, the feature point pair extraction unit 44 is stored as a corresponding point from the X coordinate stored in the local feature table 53 and the distance value stored in the corresponding point table 54. The Z value (depth distance) of the feature point is calculated. The Z value can be calculated using the following formula (4).

Figure 2012160011
Figure 2012160011

ここで、fは3D画像の撮影時のカメラのパラメータである焦点距離である。Xは3D画像を撮影したカメラの二つのレンズ間の距離である。xは対応点の右フレーム画像でのX座標である。xは対応点の左フレーム画像でのX座標である。なお、焦点距離は2つのレンズで同じ値を持つものとする。なお、式(4)における各パラメータを図示すると、例えば図16に示すようになる。図16は3Dカメラを上から見た場合の一例の模式図である。 Here, f C is a focal length which is a parameter of the camera at the time of capturing a 3D image. X C is the distance between the two lenses of the cameras taking a 3D image. x R is the X-coordinate of the right frame image of the corresponding points. x L is the X coordinate in the left frame image of the corresponding point. It is assumed that the focal length has the same value for the two lenses. In addition, when each parameter in Formula (4) is illustrated, it will become as shown, for example in FIG. FIG. 16 is a schematic diagram of an example when the 3D camera is viewed from above.

また、図17は視差によるZ値の算出方法の一例のイメージ図である。図17(A)は二つのレンズ間の視差のイメージを表している。図17(B)は同一フレームにおける右フレーム画像及び左フレーム画像から抽出された対応点(特徴点のペア)のイメージを表している。図17(B)では特徴点を「○」で表し、ペアとなる特徴点を線で結んで視覚的に表している。図17(B)ではZ値の小さい特徴点のペアを細線で繋ぎ、Z値の大きい特徴点のペアを太線で繋いで表している。   FIG. 17 is an image diagram illustrating an example of a Z value calculation method based on parallax. FIG. 17A shows an image of parallax between two lenses. FIG. 17B shows an image of corresponding points (feature point pairs) extracted from the right frame image and the left frame image in the same frame. In FIG. 17B, feature points are represented by “◯”, and paired feature points are visually represented by connecting them with lines. In FIG. 17B, pairs of feature points having a small Z value are connected by thin lines, and pairs of feature points having a large Z value are connected by thick lines.

図17に示すように、位置がレンズに近いものほど、左右フレーム画像間での特徴点の左右位置は、ずれる。したがって、奥行き距離の算出は左右フレーム画像間での特徴点の左右位置のずれを利用して行うことができる。   As shown in FIG. 17, the closer the position is to the lens, the more the left and right positions of the feature points are shifted between the left and right frame images. Therefore, the calculation of the depth distance can be performed using the shift of the left and right position of the feature point between the left and right frame images.

図3のステップS3以降の処理ではZ値の絶対値を使用せず、相対値を使用する。したがって、焦点距離と二つのレンズ間の距離とは正の固定値を設定すればよい。また、上記の式(4)から分かるように、Z値と対応点の距離値とは反比例の関係にある。ステップS4の処理において対応点の距離値を使用するようにすれば、ステップS3の処理ではZ値の算出まで行う必要はなくなる。特徴点ペア抽出部44は算出したZ値を対応点テーブル54に保存する。   In the processing after step S3 in FIG. 3, the absolute value of the Z value is not used, but the relative value is used. Therefore, a positive fixed value may be set for the focal length and the distance between the two lenses. Further, as can be seen from the above equation (4), the Z value and the distance value of the corresponding point are in an inversely proportional relationship. If the distance value of the corresponding point is used in the process of step S4, it is not necessary to perform the calculation of the Z value in the process of step S3. The feature point pair extraction unit 44 stores the calculated Z value in the corresponding point table 54.

図3のステップS3の処理は例えば図18に示すフローチャートの手順で行うことができる。図18はステップS3の処理の一例のフローチャートである。   The process of step S3 in FIG. 3 can be performed, for example, according to the procedure of the flowchart shown in FIG. FIG. 18 is a flowchart of an example of the process in step S3.

ステップS11において、特徴点ペア抽出部44は局所特徴量テーブル53に保存されている左フレーム画像の特徴点を一つ選択し、その特徴点の特徴量を取得する。ステップS12において、特徴点ペア抽出部44はステップS11で選択した左フレーム画像の特徴点と座標値が近い特徴点を選択し、その特徴点の特徴量を取得する。   In step S11, the feature point pair extraction unit 44 selects one feature point of the left frame image stored in the local feature amount table 53, and acquires the feature amount of the feature point. In step S12, the feature point pair extraction unit 44 selects a feature point having a coordinate value close to that of the left frame image selected in step S11, and acquires a feature amount of the feature point.

ステップS13において、特徴点ペア抽出部44はステップS11、S12で選択した二つの特徴点の特徴量の距離値を算出する。ステップS14において、特徴点ペア抽出部44は算出した距離値が最小値の場合、ステップS11、S12で選択した二つの特徴点及びステップS13で算出した二つの特徴点の特徴量の距離値を保存する。   In step S13, the feature point pair extraction unit 44 calculates the distance value between the feature amounts of the two feature points selected in steps S11 and S12. In step S14, when the calculated distance value is the minimum value, the feature point pair extraction unit 44 stores the distance values of the feature values of the two feature points selected in steps S11 and S12 and the two feature points calculated in step S13. To do.

ステップS15に進み、特徴点ペア抽出部44は他に右フレーム画像の特徴点があるかを判定する。他に右フレーム画像の特徴点があれば、特徴点ペア抽出部44は右フレーム画像の他の特徴点に対してステップS12〜S14の処理を繰り返す。他に右フレーム画像の特徴点が無くなれば、特徴点ペア抽出部44はステップS16において、特徴量の距離値が最小値の二つの特徴点のX座標の差分とZ値とを算出する。   In step S15, the feature point pair extraction unit 44 determines whether there are other feature points of the right frame image. If there are other feature points of the right frame image, the feature point pair extraction unit 44 repeats the processes of steps S12 to S14 for the other feature points of the right frame image. If there are no more feature points in the right frame image, the feature point pair extraction unit 44 calculates the difference between the X coordinates and the Z value of the two feature points having the minimum feature value distance value in step S16.

ステップS17において、特徴点ペア抽出部44は特徴量の距離値が閾値以下である場合に、特徴量の距離値が最小値の二つの特徴点を対応点として対応点テーブル54へ保存する。ステップS18において、特徴点ペア抽出部44は他に左フレーム画像の特徴点があるかを判定する。   In step S <b> 17, when the feature value distance value is equal to or smaller than the threshold value, the feature point pair extraction unit 44 stores the two feature points having the minimum feature value distance value as corresponding points in the corresponding point table 54. In step S18, the feature point pair extraction unit 44 determines whether there are other feature points of the left frame image.

他に左フレーム画像の特徴点があれば、特徴点ペア抽出部44は左フレーム画像の他の特徴点に対してステップS11〜S17の処理を繰り返す。他に左フレーム画像の特徴点が無くなれば、特徴点ペア抽出部44は図18に示す処理を終了する。   If there are other feature points of the left frame image, the feature point pair extraction unit 44 repeats the processes of steps S11 to S17 for the other feature points of the left frame image. If there are no more feature points in the left frame image, the feature point pair extraction unit 44 ends the process shown in FIG.

図3のステップS4の処理の詳細は以下の通りである。奥行きクラスタリング部45はステップS3の処理で求めたZ値又は距離値を元に、クラスタリング処理を行い、近い奥行き距離のグループを作成する。   The details of the process of step S4 in FIG. 3 are as follows. The depth clustering unit 45 performs a clustering process based on the Z value or the distance value obtained in the process of step S3, and creates a group of close depth distances.

クラスタリング手法としては、ヒストグラムを用いた方法が利用できる。奥行きクラスタリング部45は特定の間隔でZ値の範囲(ヒストグラムのビン)を定める。奥行きクラスタリング部45は各ビンの値を最初に0に初期化する。奥行きクラスタリング部45は対応点テーブル54を参照して、各ビンのZ値の範囲にある対応点の個数を各ビンの値として計算する。奥行きクラスタリング部45は、計算した各ビンの値をZ値ヒストグラムテーブル55に保存する。   As a clustering method, a method using a histogram can be used. The depth clustering unit 45 defines a range of Z values (histogram bins) at specific intervals. The depth clustering unit 45 first initializes the value of each bin to 0. The depth clustering unit 45 refers to the corresponding point table 54 and calculates the number of corresponding points in the range of the Z value of each bin as the value of each bin. The depth clustering unit 45 stores the calculated bin values in the Z value histogram table 55.

図19は計算した各ビンの値を表す一例のヒストグラムである。図19のヒストグラムは図17に示したイメージ図に対応するものである。なお、Z値の範囲は、固定間隔でもかまわないし、Z値の絶対値で変更してもかまわない。上記の式(4)により、Z値は対応点の距離値が0に近くなると急激に大きくなる。そこで、ビンはZ値が大きい部分の範囲を広めに設定してもよい。奥行きクラスタリング部45は必要に応じて、各ヒストグラムにどの対応点が格納されたのかを対応点ヒストグラムテーブル55に保存する。   FIG. 19 is an example histogram showing the calculated value of each bin. The histogram in FIG. 19 corresponds to the image diagram shown in FIG. Note that the range of the Z value may be a fixed interval or may be changed by the absolute value of the Z value. According to the above equation (4), the Z value increases rapidly when the distance value of the corresponding point is close to zero. Therefore, the bin may be set to have a wider range of the portion with a large Z value. The depth clustering unit 45 stores, in the corresponding point histogram table 55, which corresponding points are stored in each histogram as necessary.

奥行きクラスタリング部45はZ値ヒストグラムテーブル55に保存されているヒストグラムのピーク(局所的に値が大きくなっているビン)を見つけ、その前後のビンの個数と併せて一つのクラスタとする。   The depth clustering unit 45 finds the peak of the histogram stored in the Z value histogram table 55 (bin having a locally large value), and combines it with the number of bins before and after that to form one cluster.

ヒストグラムのビン番号iの個数をh(i)とした場合、奥行きクラスタリング部45はh(i)>h(i−1)かつh(i)>h(i+1)であるビン番号iのビンをピークとする。奥行きクラスタリング部45はビン番号iのビンと、その前後のビン番号i−1及びi+1のビンとを併せて一つのクラスタとする。奥行きクラスタリング部45はクラスタにある対応点の個数をc=h(i−1)+h(i)+h(i+1)とする。奥行きクラスタリング部45は、クラスタにある対応点の個数をZ値クラスタテーブル57に保存する。奥行きクラスタリング部45は必要に応じて、対応点ヒストグラムテーブル56を元に、各クラスタにどの対応点が含まれているのかを対応点クラスタテーブル58に保存する。   When the number of bin numbers i in the histogram is h (i), the depth clustering unit 45 selects bins with bin numbers i that satisfy h (i)> h (i−1) and h (i)> h (i + 1). Let it be a peak. The depth clustering unit 45 combines the bin with the bin number i and the bins with bin numbers i−1 and i + 1 before and after that into one cluster. The depth clustering unit 45 sets the number of corresponding points in the cluster as c = h (i−1) + h (i) + h (i + 1). The depth clustering unit 45 stores the number of corresponding points in the cluster in the Z value cluster table 57. The depth clustering unit 45 stores in the corresponding point cluster table 58 which corresponding points are included in each cluster based on the corresponding point histogram table 56 as necessary.

図20は各クラスタに含まれる対応点を視覚的に表したフレーム画像の一例のイメージ図である。図20では同一のクラスタに含まれる対応点を線で囲って表している。図20のイメージ図は図19に示したヒストグラムに対応するものである。   FIG. 20 is an image diagram of an example of a frame image that visually represents corresponding points included in each cluster. In FIG. 20, corresponding points included in the same cluster are surrounded by a line. The image diagram of FIG. 20 corresponds to the histogram shown in FIG.

なお、ヒストグラムを求めるにあたり精度を向上させるためには、近接の特徴点のZ値と比較し、近似したZ値を持たない特徴点を除去する方法が考えられる。例えば奥行きクラスタリング部45は対応点クラスタテーブル58、対応点テーブル54及び局所特徴量テーブル53から、特徴点のX座標値、Y座標値を取得する。   In order to improve accuracy in obtaining the histogram, a method of removing feature points that do not have an approximate Z value by comparing with the Z values of neighboring feature points is conceivable. For example, the depth clustering unit 45 acquires the X coordinate value and the Y coordinate value of the feature point from the corresponding point cluster table 58, the corresponding point table 54, and the local feature amount table 53.

なお、右フレーム画像、左フレーム画像のどちらの座標でもかまわないが、すべての特徴点にたいして同じフレーム画像の座標値を指定する。奥行きクラスタリング部45は特徴点同士でX座標値、Y座標値の差分を抽出して、その差分による距離が予め決められた閾値以下になる特徴点が他にない場合、その特徴点をクラスタから除外する。   The coordinates of either the right frame image or the left frame image may be used, but the coordinate values of the same frame image are designated for all feature points. The depth clustering unit 45 extracts the difference between the X coordinate value and the Y coordinate value between the feature points, and if there is no other feature point whose distance is less than or equal to a predetermined threshold, the feature point is extracted from the cluster. exclude.

また、クラスタを構成する特徴点の個数が少ない場合、奥行きクラスタリング部45はクラスタそのものを削除するようにする。例えば奥行きクラスタリング部45は予め閾値を与えて、クラスタ内の特徴点の個数が閾値以下の場合、クラスタを削除する。   Further, when the number of feature points constituting the cluster is small, the depth clustering unit 45 deletes the cluster itself. For example, the depth clustering unit 45 gives a threshold value in advance, and deletes the cluster when the number of feature points in the cluster is equal to or less than the threshold value.

図3のステップS4の処理は例えば図21に示すフローチャートの手順で行うことができる。図21はステップS4の処理の一例のフローチャートである。   The process of step S4 in FIG. 3 can be performed, for example, according to the procedure of the flowchart shown in FIG. FIG. 21 is a flowchart of an example of the process in step S4.

ステップS21において、奥行きクラスタリング部45はZ値ヒストグラムテーブル55の各ビンの値を0で初期化する。ステップS22において、奥行きクラスタリング部45は対応点テーブル54を参照して、対応点とそのZ値とを取得する。ステップS23において、奥行きクラスタリング部45はZ値に合致するZ値ヒストグラムテーブル55のビンの値に1を加える。   In step S21, the depth clustering unit 45 initializes the value of each bin of the Z value histogram table 55 with zero. In step S22, the depth clustering unit 45 refers to the corresponding point table 54, and acquires the corresponding point and its Z value. In step S23, the depth clustering unit 45 adds 1 to the bin value of the Z value histogram table 55 that matches the Z value.

ステップS24において、奥行きクラスタリング部45は対応点テーブル54を参照して、他に対応点があるか否かを判定する。他に対応点があれば、奥行きクラスタリング部45はステップS22〜S23の処理を繰り返す。他に対応点が無ければ、奥行きクラスタリング部45はステップS25において、Z値ヒストグラムテーブル55を参照してヒストグラムのピークを求める。   In step S24, the depth clustering unit 45 refers to the corresponding point table 54 and determines whether there is another corresponding point. If there is another corresponding point, the depth clustering unit 45 repeats the processes of steps S22 to S23. If there is no other corresponding point, the depth clustering unit 45 refers to the Z value histogram table 55 to obtain the peak of the histogram in step S25.

ステップS26において、奥行きクラスタリング部45はピーク近傍の対応点をまとめてクラスタを作成し、対応点クラスタテーブル58に保存する。奥行きクラスタリング部45はステップS27において、他にヒストグラムのピークがあるか否かを判定する。他にヒストグラムのピークがあれば、奥行きクラスタリング部45はステップS25〜S26の処理を繰り返す。他にヒストグラムのピークが無ければ、奥行きクラスタリング部45はステップS28において、後述するように、クラスタ内に近似の特徴点のない特徴点を除去する。   In step S <b> 26, the depth clustering unit 45 collects corresponding points in the vicinity of the peak to create a cluster, and stores the cluster in the corresponding point cluster table 58. In step S27, the depth clustering unit 45 determines whether there is another histogram peak. If there are other histogram peaks, the depth clustering unit 45 repeats the processes of steps S25 to S26. If there is no other histogram peak, in step S28, the depth clustering unit 45 removes a feature point having no approximate feature point in the cluster, as will be described later.

ステップS29において、奥行きクラスタリング部45はクラスタ内の特徴点の個数が閾値以下の場合、クラスタを削除する。ステップS30において、奥行きクラスタリング部45は他に、クラスタがあるか否かを判定する。他にクラスタがあれば、奥行きクラスタリング部45はステップS28〜S29の処理を繰り返す。奥行きクラスタリング部45は、他にクラスタが無ければ図21に示す処理を終了する。   In step S29, the depth clustering unit 45 deletes the cluster when the number of feature points in the cluster is equal to or smaller than the threshold value. In step S30, the depth clustering unit 45 determines whether there is another cluster. If there are other clusters, the depth clustering unit 45 repeats the processes of steps S28 to S29. If there is no other cluster, the depth clustering unit 45 ends the process shown in FIG.

図3のステップS5の処理の詳細は以下の通りである。サムネイル評価部46はクラスタリング結果を元に、現在のフレームがサムネイルとして適しているかどうかを評価値として算出する。   The details of the process of step S5 in FIG. 3 are as follows. Based on the clustering result, the thumbnail evaluation unit 46 calculates whether or not the current frame is suitable as a thumbnail as an evaluation value.

フレームの評価値としては、以下の指標を用いる。一つ目の指標は、フレームに含まれるクラスタの数が複数あるか否かである。フレームに含まれるクラスタが一つの場合は当然ながら立体的に見えない。フレームはクラスタが三つ程度含まれると、より立体的に見える。逆に、フレームはクラスタの数が多すぎると、全体的に雑然としてしまい立体的に見えにくくなる。   The following indices are used as frame evaluation values. The first index is whether or not there are a plurality of clusters included in a frame. Obviously, when a single cluster is included in a frame, it does not look three-dimensional. A frame looks more three-dimensional when it contains about three clusters. On the other hand, if the number of clusters in the frame is too large, the frame becomes cluttered as a whole and becomes difficult to see in three dimensions.

二つ目の指標は、各クラスタ内の対応点がまとまっているか否かである。クラスタ内の対応点が画像内に点在する場合、フレームは立体的に見えにくくなる。三つ目の指標はクラスタ間のZ値の距離が大きいか否かである。フレームはクラスタ間のZ値の距離が大きい場合、より立体的に見える。   The second index is whether or not the corresponding points in each cluster are collected. When the corresponding points in the cluster are scattered in the image, the frame becomes difficult to see three-dimensionally. The third index is whether or not the Z value distance between clusters is large. The frame looks more three-dimensional when the Z-value distance between clusters is large.

四つ目の指標は、クラスタのうち一番奥に存在するクラスタが背景であり、背景に含まれる特徴点の数が多いか否かである。フレームは背景に含まれる特徴点の数が多いほど立体的に見える。さらに、フレームは構図的に画面上部に背景の特徴点が集まっているほど立体的に見えやすい。   The fourth index is whether the innermost cluster among the clusters is the background and whether the number of feature points included in the background is large. The frame looks three-dimensional as the number of feature points included in the background increases. In addition, the frame is easier to see in three dimensions as the background feature points gather at the top of the screen.

サムネイル評価部46は、上記の指標を元にスコアリングして、立体らしさの値を抽出する。クラスタの数に関しては、重みwと、クラスタ数を引数にする評価関数fを用いる。重みwはあらかじめ決められた定数とする。評価関数fについては、以下のような式(5)が利用できる。 The thumbnail evaluation unit 46 performs scoring based on the above-described index, and extracts a three-dimensionality value. Regarding the number of clusters, using the evaluation function f c of the weight w c, the number of clusters in the argument. The weight w c is a predetermined constant. For the evaluation function f c may Equation (5) is utilized as follows.

Figure 2012160011
Figure 2012160011

各クラスタ内の対応点のまとまりは、クラスタ間平均距離などの手法を用いることができる。画像サイズをw、h、クラスタ集合をC、クラスタ内の対応点の個数をn、対応点iのX座標をx(i)、y座標をy(i)とした場合、対応点のまとまりの評価関数fsは以下のような式(6)で表現できる。   A method such as an average distance between clusters can be used to collect corresponding points in each cluster. When the image size is w, h, the cluster set is C, the number of corresponding points in the cluster is n, the X coordinate of the corresponding point i is x (i), and the y coordinate is y (i), the set of corresponding points The evaluation function fs can be expressed by the following equation (6).

Figure 2012160011
Figure 2012160011

クラスタ間のZ値の距離の大きさは、クラスタの一番奥のZ値をz、一番前のクラスタのZ値をzとした場合、クラスタ間のZ値の距離の大きさの評価関数fは以下のような式(7)で表現できる。 The magnitude of the Z value distance between clusters is the magnitude of the distance of the Z value between clusters, where z b is the innermost Z value of the cluster and z f is the Z value of the frontmost cluster. The evaluation function f z can be expressed by the following equation (7).

Figure 2012160011
Figure 2012160011

背景の評価については、一番奥のクラスタ集合をC、クラスタ内の対応点の個数をn、画像の高さをh、対応点iのy座標をy(i)とした場合、背景の評価の評価関数fは以下のような式(8)で表現できる。 Regarding the background evaluation, when the innermost cluster set is C b , the number of corresponding points in the cluster is n, the height of the image is h, and the y coordinate of the corresponding point i is y (i), The evaluation function f b for evaluation can be expressed by the following equation (8).

Figure 2012160011
Figure 2012160011

フレームの評価関数fは、式(9)に表現するように、上記4つの評価関数を重みで結合した形式で求める。   The frame evaluation function f is obtained in a form in which the above four evaluation functions are combined with weights, as expressed in Equation (9).

Figure 2012160011
Figure 2012160011

図3のステップS5の処理は例えば図22に示すフローチャートの手順で行うことができる。図22はステップS5の処理の一例のフローチャートである。   The process of step S5 of FIG. 3 can be performed, for example, according to the procedure of the flowchart shown in FIG. FIG. 22 is a flowchart of an example of the process in step S5.

ステップS41において、サムネイル評価部46はクラスタの個数に関する評価値を算出する。ステップS42において、サムネイル評価部46はクラスタのまとまりに関する評価値を算出する。ステップS43において、サムネイル評価部46はクラスタのZ値差分に関する評価値を算出する。ステップS44において、サムネイル評価部46はクラスタの背景に関する評価値を算出する。ステップS45において、そして、サムネイル評価部46はステップS41〜S44で算出した全ての評価値の重み付きで結合し、評価値を算出する。   In step S41, the thumbnail evaluation unit 46 calculates an evaluation value related to the number of clusters. In step S42, the thumbnail evaluation unit 46 calculates an evaluation value related to the cluster group. In step S43, the thumbnail evaluation unit 46 calculates an evaluation value related to the Z value difference of the cluster. In step S44, the thumbnail evaluation unit 46 calculates an evaluation value related to the cluster background. In step S45, the thumbnail evaluation unit 46 combines all the evaluation values calculated in steps S41 to S44 with weights to calculate an evaluation value.

なお、図22に示したステップS5の処理は一例であって、ステップS41〜S44の少なくとも一つ以上の組み合わせを利用して評価値を算出するものであればよい。   Note that the process of step S5 illustrated in FIG. 22 is an example, and any process may be used as long as the evaluation value is calculated using at least one combination of steps S41 to S44.

図21のステップS28の処理の詳細は以下の通りである。図23はステップS28の処理の一例のフローチャートである。奥行きクラスタリング部45はステップS51において、対応点テーブル54及び対応点クラスタテーブル58を参照し、クラスタ内の特徴点の一つを選択し、位置を取得する。   Details of the processing in step S28 in FIG. 21 are as follows. FIG. 23 is a flowchart of an example of the process in step S28. In step S51, the depth clustering unit 45 refers to the corresponding point table 54 and the corresponding point cluster table 58, selects one of the feature points in the cluster, and acquires the position.

ステップS52において、奥行きクラスタリング部45はクラスタ内の他の特徴点の一つを選択し、位置を取得する。ステップS53において、奥行きクラスタリング部45はステップS51及びS52で選択した特徴点の位置の差(距離)を算出する。   In step S52, the depth clustering unit 45 selects one of the other feature points in the cluster and acquires the position. In step S53, the depth clustering unit 45 calculates the difference (distance) between the positions of the feature points selected in steps S51 and S52.

ステップS54に進み、奥行きクラスタリング部45はステップS53で算出した距離が閾値以下か否かを判定する。閾値以下でなければ、ステップS55において、奥行きクラスタリング部45はクラスタ内に他の特徴点があるか否かを判定する。クラスタ内に他の特徴点があれば、奥行きクラスタリング部45はステップS52〜S54の処理を繰り返す。クラスタ内に他の特徴点がなければ、奥行きクラスタリング部45はステップS56において、ステップS51で選択した特徴点をクラスタから削除する。   In step S54, the depth clustering unit 45 determines whether the distance calculated in step S53 is equal to or less than a threshold value. If not below the threshold value, in step S55, the depth clustering unit 45 determines whether there is another feature point in the cluster. If there is another feature point in the cluster, the depth clustering unit 45 repeats the processing of steps S52 to S54. If there is no other feature point in the cluster, the depth clustering unit 45 deletes the feature point selected in step S51 from the cluster in step S56.

また、ステップS54において閾値以下であるか、ステップS56の処理の後、奥行きクラスタリング部45はステップS57においてクラスタ内に他の特徴点があるか否かを判定する。クラスタ内に他の特徴点があれば、奥行きクラスタリング部45はステップS51〜S56の処理を繰り返す。クラスタ内に他の特徴点がなければ、奥行きクラスタリング部45は図23に示す処理を終了する。   In step S54, the depth clustering unit 45 determines whether there is another feature point in the cluster in step S57 after the processing in step S56. If there is another feature point in the cluster, the depth clustering unit 45 repeats the processes of steps S51 to S56. If there is no other feature point in the cluster, the depth clustering unit 45 ends the processing shown in FIG.

図24は本実施例のサムネイル抽出装置の他の例の機能ブロック図である。図24のサムネイル抽出装置40Aは、図2のサムネイル抽出装置40に、もう一つの評価軸である背景の評価の追加を行っている。具体的には図24のサムネイル抽出装置40Aは図2のサムネイル抽出装置40の構成に背景評価部48が追加されている。特にホームビデオなどの場合、旅行先で撮影した映像など、背景が特徴的である部分をサムネイルとして抽出することは有効である。   FIG. 24 is a functional block diagram of another example of the thumbnail extracting apparatus of this embodiment. The thumbnail extraction device 40A in FIG. 24 adds background evaluation, which is another evaluation axis, to the thumbnail extraction device 40 in FIG. Specifically, in the thumbnail extraction device 40A of FIG. 24, a background evaluation unit 48 is added to the configuration of the thumbnail extraction device 40 of FIG. In particular, in the case of home video, it is effective to extract a portion having a characteristic background, such as a video taken at a travel destination, as a thumbnail.

図24のサムネイル抽出装置40Aについては、図2のサムネイル抽出装置40との差異を中心に説明する。サムネイル抽出装置40Aのフローチャートは図3に示したサムネイル抽出装置40とステップS5の処理が異なる。   The thumbnail extraction device 40A in FIG. 24 will be described focusing on differences from the thumbnail extraction device 40 in FIG. The flowchart of the thumbnail extracting device 40A differs from the thumbnail extracting device 40 shown in FIG. 3 in the process of step S5.

サムネイル抽出装置40AのステップS5の処理は例えば図25に示すフローチャートの手順で行うことができる。図25は、ステップS5の処理の他の例のフローチャートである。   The process of step S5 of the thumbnail extraction device 40A can be performed, for example, according to the procedure of the flowchart shown in FIG. FIG. 25 is a flowchart of another example of the process in step S5.

ステップS61〜S64までの処理は図22のステップS41〜S44と同様であるため説明を省略する。ステップS65において、背景評価部48はフレーム間で共通する背景を評価する。   The processing from step S61 to S64 is the same as that from step S41 to S44 in FIG. In step S65, the background evaluation unit 48 evaluates a common background between frames.

背景は一番奥のクラスタであるため、一番奥のクラスタのみを利用する。フレーム数をFとし、フレームiにおける背景クラスタをCb(i)とし、個数をn(i)とし、対応点jの特徴量をf(i、j)とし、予め与えられた距離の閾値をTとすると、フレーム間で共通する背景の評価の評価関数fは以下のような式(10)で表現できる。 Since the background is the innermost cluster, only the innermost cluster is used. The number of frames is F, the background cluster in frame i is Cb (i), the number is n (i), the feature quantity of the corresponding point j is f (i, j), and a predetermined distance threshold is T Then, the evaluation function f f of the background evaluation common to the frames can be expressed by the following equation (10).

Figure 2012160011
Figure 2012160011

ステップS66において、サムネイル評価部46はステップS61〜S65で算出した全ての評価値の重み付きで結合し、評価値を算出する。サムネイル評価部46はフレームの評価関数fを、式(11)に表現するように、上記5つの評価関数を重み付きで結合した形式で求める。   In step S66, the thumbnail evaluation unit 46 combines all the evaluation values calculated in steps S61 to S65 with weights to calculate an evaluation value. The thumbnail evaluation unit 46 obtains the frame evaluation function f in a form in which the above five evaluation functions are combined with weights so as to be expressed by Expression (11).

Figure 2012160011
Figure 2012160011

なお、図25に示したステップS5の処理は一例であって、ステップS61〜S65の少なくとも一つ以上の組み合わせを利用して評価値を算出するものであればよい。   Note that the process of step S5 illustrated in FIG. 25 is an example, and any process may be used as long as the evaluation value is calculated using at least one combination of steps S61 to S65.

(まとめ)
実施例1及び2に示したサムネイル抽出装置40及び40Aは、3D映像を対象とした場合、より立体的に見えるサムネイルを抽出する必要がある。3D映像中には、あまり立体的に見えないシーンが多い。実施例1及び2に示したサムネイル抽出装置40及び40Aは立体的に見えるシーンからサムネイルを抽出することにより、より印象的で見栄えのするサムネイルを選択することができる。
(Summary)
The thumbnail extracting devices 40 and 40A shown in the first and second embodiments need to extract thumbnails that look more stereoscopic when 3D video is targeted. In 3D video, there are many scenes that do not look very three-dimensional. The thumbnail extracting devices 40 and 40A shown in the first and second embodiments can select thumbnails that are more impressive and look good by extracting thumbnails from a stereoscopically visible scene.

実施例1及び2に示したサムネイル抽出装置40及び40Aによれば、3D映像の特徴を用いて画像の奥行きを求め、その構図を元に、立体的に表示できるサムネイルを選択できる。   According to the thumbnail extraction devices 40 and 40A shown in the first and second embodiments, the depth of an image is obtained using the characteristics of the 3D video, and thumbnails that can be displayed in three dimensions can be selected based on the composition.

本実施例における推薦プログラムはパッケージソフトの他、WEBサービス等によっても提供可能である。   The recommendation program in this embodiment can be provided not only by package software but also by a WEB service or the like.

本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
3D映像の一フレームを構成するフレーム画像ペア間で対応する特徴点を特徴点ペアとして前記フレーム画像ペアから抽出し、
前記特徴点ペアの奥行き量を前記特徴点ペアの点間距離、所定のレンズ間距離・焦点距離を基に算出して、前記奥行き量で前記特徴点ペアをクラスタリングし、
予め定められたクラスタリングの結果情報に基づく前記フレーム画像ペアの立体的な見え易さの評価条件を基に、1以上の前記フレーム画像ペアのクラスタリングの結果情報から前記1以上のフレーム画像ペアの立体的な見え易さを評価し、
前記1以上のフレーム画像ペアの立体的な見え易さの評価結果に基づき、前記評価結果の最も良い前記フレーム画像ペアを、サムネイル用の前記フレーム画像ペアとして抽出する
処理をコンピュータに実行させるサムネイル抽出プログラム。
(付記2)
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタの個数を元に、前記フレーム画像ペアの立体的な見え易さを評価する
付記1記載のサムネイル抽出プログラム。
(付記3)
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタ内の特徴点の位置的な集合度を元に、前記フレーム画像ペアの立体的な見え易さを評価する
付記1又は2記載のサムネイル抽出プログラム。
(付記4)
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタ間の奥行き量の差を元に、前記フレーム画像ペアの立体的な見え易さを評価する
付記1乃至3何れかに記載のサムネイル抽出プログラム。
(付記5)
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、一番奥のクラスタの個数及び配置を元に、前記フレーム画像ペアの立体的な見え易さを評価する
付記1乃至3何れかに記載のサムネイル抽出プログラム。
(付記6)
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、複数フレーム間における共通の背景を元に、前記フレーム画像ペアの立体的な見え易さを評価する
付記1乃至5何れかに記載のサムネイル抽出プログラム。
(付記7)
前記特徴点を前記特徴点ペアとして前記フレーム画像ペアから抽出する処理は、
前記3D映像の一フレームを構成する前記フレーム画像ペアを抽出し、
前記抽出した前記フレーム画像ペアから前記特徴点を抽出し、
前記抽出した前記特徴点の局所特徴量を抽出し、
前記抽出した前記局所特徴量を用いて、前記フレーム画像ペア間で対応する前記特徴点を前記特徴点ペアとして抽出する
付記1乃至6何れかに記載のサムネイル抽出プログラム。
(付記8)
コンピュータによって実行されるサムネイル抽出方法であって、
3D映像の一フレームを構成するフレーム画像ペア間で対応する特徴点を特徴点ペアとして前記フレーム画像ペアから抽出し、
前記特徴点ペアの奥行き量を前記特徴点ペアの点間距離、所定のレンズ間距離・焦点距離を基に算出して、前記奥行き量で前記特徴点ペアをクラスタリングし、
予め定められたクラスタリングの結果情報に基づく前記フレーム画像ペアの立体的な見え易さの評価条件を基に、1以上の前記フレーム画像ペアのクラスタリングの結果情報から前記1以上のフレーム画像ペアの立体的な見え易さを評価し、
前記1以上のフレーム画像ペアの立体的な見え易さの評価結果に基づき、前記評価結果の最も良い前記フレーム画像ペアを、サムネイル用の前記フレーム画像ペアとして抽出する
ことを特徴とするサムネイル抽出方法。
The present invention may have the following configurations as described below.
(Appendix 1)
A feature point corresponding to a pair of frame images constituting one frame of 3D video is extracted from the frame image pair as a feature point pair,
Calculating a depth amount of the feature point pair based on a distance between points of the feature point pair, a predetermined inter-lens distance / focal length, and clustering the feature point pairs by the depth amount;
Based on the evaluation condition of the three-dimensional visibility of the frame image pair based on predetermined clustering result information, the three-dimensional image of the one or more frame image pairs is obtained from the result information of the clustering of the one or more frame image pairs. Appreciable visibility,
Thumbnail extraction for causing a computer to execute processing for extracting the frame image pair having the best evaluation result as the frame image pair for thumbnails based on the evaluation result of the three-dimensional visibility of the one or more frame image pairs program.
(Appendix 2)
The thumbnail extraction program according to appendix 1, wherein the process of evaluating the stereoscopic visibility of the one or more frame image pairs evaluates the stereoscopic visibility of the frame image pair based on the number of clusters.
(Appendix 3)
The process of evaluating the stereoscopic visibility of the one or more frame image pairs is performed by evaluating the stereoscopic visibility of the frame image pairs based on the degree of positional aggregation of feature points in the cluster. A thumbnail extraction program according to 1 or 2.
(Appendix 4)
The processing for evaluating the three-dimensional visibility of the one or more frame image pairs includes any one of appendices 1 to 3 for evaluating the three-dimensional visibility of the frame image pair based on a difference in depth between clusters. Crab thumbnail extraction program.
(Appendix 5)
The process of evaluating the stereoscopic visibility of the one or more frame image pairs is performed by evaluating the stereoscopic visibility of the frame image pair based on the number and arrangement of the innermost clusters. 3. The thumbnail extraction program according to any one of 3 above.
(Appendix 6)
The processing for evaluating the three-dimensional visibility of the one or more frame image pairs includes any one of appendices 1 to 5 for evaluating the three-dimensional visibility of the frame image pair based on a common background among a plurality of frames. Crab thumbnail extraction program.
(Appendix 7)
The process of extracting the feature point from the frame image pair as the feature point pair is as follows:
Extracting the frame image pair constituting one frame of the 3D video;
Extracting the feature points from the extracted frame image pair;
Extracting a local feature amount of the extracted feature point;
The thumbnail extraction program according to any one of supplementary notes 1 to 6, wherein the feature points corresponding to the frame image pairs are extracted as the feature point pairs using the extracted local feature amounts.
(Appendix 8)
A thumbnail extraction method executed by a computer,
A feature point corresponding to a pair of frame images constituting one frame of 3D video is extracted from the frame image pair as a feature point pair,
Calculating a depth amount of the feature point pair based on a distance between points of the feature point pair, a predetermined inter-lens distance / focal length, and clustering the feature point pairs by the depth amount;
Based on the evaluation condition of the three-dimensional visibility of the frame image pair based on predetermined clustering result information, the three-dimensional image of the one or more frame image pairs is obtained from the result information of the clustering of the one or more frame image pairs. Appreciable visibility,
A thumbnail extraction method, wherein the frame image pair having the best evaluation result is extracted as the frame image pair for thumbnails based on the evaluation result of the stereoscopic visibility of the one or more frame image pairs. .

10 PC
21 入力装置
22 表示装置
23 PC本体
31 主記憶装置
32 演算処理装置
33 インタフェース装置
34 記録媒体読取装置
35 補助記憶装置
36 記録媒体
37 バス
40、40A サムネイル抽出装置
41 フレーム画像取得部
42 特徴点抽出部
43 局所特徴抽出部
44 特徴点ペア抽出部
45 奥行きクラスタリング部
46 サムネイル評価部
47 サムネイル抽出部
48 背景評価部
51 映像情報テーブル
52 フレーム情報テーブル
53 局所特徴量テーブル
54 対応点テーブル
55 Z値ヒストグラムテーブル
56 対応点ヒストグラムテーブル
57 Z値クラスタテーブル
58 対応点クラスタテーブル
59 フレーム評価テーブル
100 左フレーム画像
101 右フレーム画像
10 PC
DESCRIPTION OF SYMBOLS 21 Input device 22 Display device 23 PC main body 31 Main memory device 32 Arithmetic processing device 33 Interface device 34 Recording medium reading device 35 Auxiliary storage device 36 Recording medium 37 Bus 40, 40A Thumbnail extraction device 41 Frame image acquisition unit 42 Feature point extraction unit 43 local feature extraction unit 44 feature point pair extraction unit 45 depth clustering unit 46 thumbnail evaluation unit 47 thumbnail extraction unit 48 background evaluation unit 51 video information table 52 frame information table 53 local feature table 54 corresponding point table 55 Z value histogram table 56 Corresponding point histogram table 57 Z-value cluster table 58 Corresponding point cluster table 59 Frame evaluation table 100 Left frame image 101 Right frame image

Claims (5)

3D映像の一フレームを構成するフレーム画像ペア間で対応する特徴点を特徴点ペアとして前記フレーム画像ペアから抽出し、
前記特徴点ペアの奥行き量を前記特徴点ペアの点間距離、所定のレンズ間距離・焦点距離を基に算出して、前記奥行き量で前記特徴点ペアをクラスタリングし、
予め定められたクラスタリングの結果情報に基づく前記フレーム画像ペアの立体的な見え易さの評価条件を基に、1以上の前記フレーム画像ペアのクラスタリングの結果情報から前記1以上のフレーム画像ペアの立体的な見え易さを評価し、
前記1以上のフレーム画像ペアの立体的な見え易さの評価結果に基づき、前記評価結果の最も良い前記フレーム画像ペアを、サムネイル用の前記フレーム画像ペアとして抽出する
処理をコンピュータに実行させるサムネイル抽出プログラム。
A feature point corresponding to a pair of frame images constituting one frame of 3D video is extracted from the frame image pair as a feature point pair,
Calculating a depth amount of the feature point pair based on a distance between points of the feature point pair, a predetermined inter-lens distance / focal length, and clustering the feature point pairs by the depth amount;
Based on the evaluation condition of the three-dimensional visibility of the frame image pair based on predetermined clustering result information, the three-dimensional image of the one or more frame image pairs is obtained from the result information of the clustering of the one or more frame image pairs. Appreciable visibility,
Thumbnail extraction for causing a computer to execute processing for extracting the frame image pair having the best evaluation result as the frame image pair for thumbnails based on the evaluation result of the three-dimensional visibility of the one or more frame image pairs program.
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタの個数を元に、前記フレーム画像ペアの立体的な見え易さを評価する
請求項1記載のサムネイル抽出プログラム。
The thumbnail extraction program according to claim 1, wherein the process of evaluating the stereoscopic visibility of the one or more frame image pairs evaluates the stereoscopic visibility of the frame image pair based on the number of clusters.
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタ内の特徴点の位置的な集合度を元に、前記フレーム画像ペアの立体的な見え易さを評価する
請求項1又は2記載のサムネイル抽出プログラム。
The process of evaluating the stereoscopic visibility of the one or more frame image pairs evaluates the stereoscopic visibility of the frame image pairs based on the degree of positional aggregation of feature points in the cluster. Item 3. A thumbnail extraction program according to item 1 or 2.
前記1以上のフレーム画像ペアの立体的な見え易さを評価する処理は、クラスタ間の奥行き量の差を元に、前記フレーム画像ペアの立体的な見え易さを評価する
請求項1乃至3何れかに記載のサムネイル抽出プログラム。
The process of evaluating the stereoscopic visibility of the one or more frame image pairs evaluates the stereoscopic visibility of the frame image pair based on a difference in depth amount between clusters. A thumbnail extraction program according to any one of the above.
コンピュータによって実行されるサムネイル抽出方法であって、
3D映像の一フレームを構成するフレーム画像ペア間で対応する特徴点を特徴点ペアとして前記フレーム画像ペアから抽出し、
前記特徴点ペアの奥行き量を前記特徴点ペアの点間距離、所定のレンズ間距離・焦点距離を基に算出して、前記奥行き量で前記特徴点ペアをクラスタリングし、
予め定められたクラスタリングの結果情報に基づく前記フレーム画像ペアの立体的な見え易さの評価条件を基に、1以上の前記フレーム画像ペアのクラスタリングの結果情報から前記1以上のフレーム画像ペアの立体的な見え易さを評価し、
前記1以上のフレーム画像ペアの立体的な見え易さの評価結果に基づき、前記評価結果の最も良い前記フレーム画像ペアを、サムネイル用の前記フレーム画像ペアとして抽出する
ことを特徴とするサムネイル抽出方法。
A thumbnail extraction method executed by a computer,
A feature point corresponding to a pair of frame images constituting one frame of 3D video is extracted from the frame image pair as a feature point pair,
Calculating a depth amount of the feature point pair based on a distance between points of the feature point pair, a predetermined inter-lens distance / focal length, and clustering the feature point pairs by the depth amount;
Based on the evaluation condition of the three-dimensional visibility of the frame image pair based on predetermined clustering result information, the three-dimensional image of the one or more frame image pairs is obtained from the result information of the clustering of the one or more frame image pairs. Appreciable visibility,
A thumbnail extraction method, wherein the frame image pair having the best evaluation result is extracted as the frame image pair for thumbnails based on the evaluation result of the stereoscopic visibility of the one or more frame image pairs. .
JP2011019158A 2011-01-31 2011-01-31 Thumbnail extraction program and thumbnail extraction method Expired - Fee Related JP5516444B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011019158A JP5516444B2 (en) 2011-01-31 2011-01-31 Thumbnail extraction program and thumbnail extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011019158A JP5516444B2 (en) 2011-01-31 2011-01-31 Thumbnail extraction program and thumbnail extraction method

Publications (2)

Publication Number Publication Date
JP2012160011A true JP2012160011A (en) 2012-08-23
JP5516444B2 JP5516444B2 (en) 2014-06-11

Family

ID=46840492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011019158A Expired - Fee Related JP5516444B2 (en) 2011-01-31 2011-01-31 Thumbnail extraction program and thumbnail extraction method

Country Status (1)

Country Link
JP (1) JP5516444B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112461A (en) * 2014-03-28 2015-10-07 한국과학기술원 Method of image extraction based on human factors and apparatus thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981746A (en) * 1995-09-08 1997-03-28 Sanyo Electric Co Ltd Two-dimensional display image generating method
JPH09107540A (en) * 1995-10-09 1997-04-22 Sharp Corp Monitor camera system
JP2004120165A (en) * 2002-09-25 2004-04-15 Sharp Corp Electronic apparatus
JP2006031390A (en) * 2004-07-15 2006-02-02 Hitachi Software Eng Co Ltd Image division processing system
JP2009210486A (en) * 2008-03-05 2009-09-17 Ntt Comware Corp Depth data generating device, depth data generation method, and program thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981746A (en) * 1995-09-08 1997-03-28 Sanyo Electric Co Ltd Two-dimensional display image generating method
JPH09107540A (en) * 1995-10-09 1997-04-22 Sharp Corp Monitor camera system
JP2004120165A (en) * 2002-09-25 2004-04-15 Sharp Corp Electronic apparatus
JP2006031390A (en) * 2004-07-15 2006-02-02 Hitachi Software Eng Co Ltd Image division processing system
JP2009210486A (en) * 2008-03-05 2009-09-17 Ntt Comware Corp Depth data generating device, depth data generation method, and program thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河合 隆史: ""立体映像コンテンツの評価システム開発への取り組み"", 画像ラボ, vol. 第18巻,第3号, JPN6014008408, 1 March 2007 (2007-03-01), JP, pages 14 - 19, ISSN: 0002755558 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150112461A (en) * 2014-03-28 2015-10-07 한국과학기술원 Method of image extraction based on human factors and apparatus thereof
KR101629414B1 (en) 2014-03-28 2016-06-13 한국과학기술원 Method of image extraction based on human factors and apparatus thereof

Also Published As

Publication number Publication date
JP5516444B2 (en) 2014-06-11

Similar Documents

Publication Publication Date Title
US8295683B2 (en) Temporal occlusion costing applied to video editing
CN105190688B (en) Method and apparatus for checking image
Wang et al. Movie2comics: Towards a lively video content presentation
US8014566B2 (en) Image processing apparatus
CN106663196B (en) Method, system, and computer-readable storage medium for identifying a subject
US8953024B2 (en) 3D scene model from collection of images
US8542929B2 (en) Image processing method and apparatus
JP5106271B2 (en) Image processing apparatus, image processing method, and computer program
US20130215221A1 (en) Key video frame selection method
JP2009539273A (en) Extract keyframe candidates from video clips
TW200536389A (en) Intelligent key-frame extraction from a video
JPWO2006025272A1 (en) Video classification device, video classification program, video search device, and video search program
JP7223079B2 (en) IMAGE PROCESSING APPARATUS, CONTROL METHOD THEREOF, AND IMAGING APPARATUS
US20200349187A1 (en) Method and apparatus for data retrieval in a lightfield database
CN107430780A (en) The method created for the output based on video content characteristic
US20120105601A1 (en) Apparatus and method for creating three-dimensional panoramic image by using single camera
JP2012105205A (en) Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device
Fried et al. Finding distractors in images
Yeh et al. Relative features for photo quality assessment
US9171357B2 (en) Method, apparatus and computer-readable recording medium for refocusing photographed image
JP5536124B2 (en) Image processing system and image processing method
JP5516444B2 (en) Thumbnail extraction program and thumbnail extraction method
CN112991419B (en) Parallax data generation method, parallax data generation device, computer equipment and storage medium
JP2014085845A (en) Moving picture processing device, moving picture processing method, program and integrated circuit
RU2493602C1 (en) Method and system for selecting key frames from video sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140317

R150 Certificate of patent or registration of utility model

Ref document number: 5516444

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees