JP2014137637A - Image processor and image processing program - Google Patents

Image processor and image processing program Download PDF

Info

Publication number
JP2014137637A
JP2014137637A JP2013004775A JP2013004775A JP2014137637A JP 2014137637 A JP2014137637 A JP 2014137637A JP 2013004775 A JP2013004775 A JP 2013004775A JP 2013004775 A JP2013004775 A JP 2013004775A JP 2014137637 A JP2014137637 A JP 2014137637A
Authority
JP
Japan
Prior art keywords
scene
image
block
feature information
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013004775A
Other languages
Japanese (ja)
Other versions
JP6034702B2 (en
Inventor
Takahiro Mochizuki
貴裕 望月
Masato Fujii
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013004775A priority Critical patent/JP6034702B2/en
Publication of JP2014137637A publication Critical patent/JP2014137637A/en
Application granted granted Critical
Publication of JP6034702B2 publication Critical patent/JP6034702B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To properly acquire the feature information of each scene included in a video.SOLUTION: An image processor for extracting the feature information of each scene included in a video comprises: sampling acquisition means for sampling a predetermined frame image from a sample video; block feature information generation means for dividing each frame image acquired by the sampling acquisition means respectively for one or more scales, and for generating the feature information of each of those divided blocks; scene division means for dividing a scene from an object video from which the feature information is generated; and histogram generation means for generating a histogram based on the appearance ratio of each block by using the blocks acquired by the block feature information generation means for each scene divided by the scene division means.

Description

本発明は、映像に含まれるフレーム画像に対する画像処理装置及び画像処理プログラムに関する。   The present invention relates to an image processing apparatus and an image processing program for a frame image included in a video.

従来では、記録技術の進歩によりハードディスクに大量の映像を蓄積することが可能となっている。また、ネットワーク環境の発達により、インターネット等の通信ネットワークを通じて多種多様な映像にアクセスすることができるようになっている。そのため、所望の映像を素早く探し出すための検索技術が有用となっている。   Conventionally, it has become possible to store a large amount of video on a hard disk due to advances in recording technology. In addition, with the development of the network environment, it is possible to access a wide variety of videos through a communication network such as the Internet. Therefore, a search technique for quickly searching for a desired video is useful.

ここで、映像の一般的な検索技術としては、映像内容に関するキーワード検索が挙げられる(例えば、特許文献1参照)。しかしながら、映像の量が膨大となった場合には、各シーンへの的確なキーワードやテキスト情報の付与が非常に高い作業コストとなる。また、付与された情報は、作業者の違いによる感覚のブレを含んでおり、検索精度の低下を招く恐れがある。そこで、キーワード検索とは異なるアプローチとして、画像特徴の類似性に基づいた「ビジュアル検索」に関する研究が盛んに行われている。従来のビジュアル検索は、カメラの切り替わりで区切ったショット単位での検索であり、高速に検索するために「代表フレーム画像の類似性」をそのままショットの類似性としている。   Here, as a general video search technique, keyword search related to video content can be cited (see, for example, Patent Document 1). However, when the amount of video becomes enormous, it is very expensive to assign appropriate keywords and text information to each scene. Moreover, the given information includes a sense blur due to a difference in workers, and there is a possibility that the search accuracy is lowered. Therefore, research on “visual search” based on the similarity of image features has been actively conducted as an approach different from keyword search. The conventional visual search is a search in shot units divided by camera switching, and “similarity of representative frame images” is used as a shot similarity as it is for high-speed search.

Tomoki Masuda,Daisuke Yamamoto,Shigeki Ohira,Katashi Nagao、"Video Scene Retrieval Using Online Video Annotation"、New Frontiers in artificial Intelligence、Awarded Papers、LNAI 4914、Springer−Verlag、pp.54−62(2008)Tomoki Masuda, Daisuke Yamamoto, Shigeki Ohira, Katashi Nagao, "Video Scene Retrieval Using Online Video Annotation", New Frontiers in artificial Intelligence, Awarded Papers, LNAI 4914, Springer-Verlag, pp. 54-62 (2008)

しかしながら、上述したショット単位の検索では、検索意図の一部しか満たされない場合があるため、複数ショットで構成される「シーン」を単位とした検索の仕組みが必要となる。また、シーン単位の検索では、シーン途中のフレーム画像の「見た目」が代表フレーム画像と大きく異なる場合がある。したがって、一枚のフレーム画像を「シーンの代表」と位置付けるのは困難である。   However, since the above-described search by shot unit may satisfy only a part of the search intention, a search mechanism using “scene” composed of a plurality of shots as a unit is required. Further, in the search by scene unit, the “look” of the frame image in the middle of the scene may be significantly different from the representative frame image. Therefore, it is difficult to position one frame image as a “scene representative”.

例えば、シーンの代表として複数の画像(例えば、全てのショットの代表画像)を用いるアプローチも考えられるが、その場合には、シーン同士の類似度を求めるために「総当り的」な画像同士の類似度算出が必要となるため、算出コストが非常に高くなってしまう。   For example, an approach using a plurality of images (for example, representative images of all shots) as a scene representative is also conceivable, but in this case, in order to obtain the similarity between scenes, Since the similarity calculation is required, the calculation cost becomes very high.

本発明は、上述した問題点に鑑みなされたものであり、映像中に含まれるシーン毎の特徴情報を適切に取得するための画像処理装置及び画像処理プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and an object thereof is to provide an image processing apparatus and an image processing program for appropriately acquiring feature information for each scene included in a video.

本発明の一態様における画像処理装置は、映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有する。   An image processing apparatus according to an aspect of the present invention is obtained by a sampling acquisition unit that samples a predetermined frame image from a sample video in the image processing apparatus that extracts feature information of each scene included in the video, and the sampling acquisition unit. Block feature information generating means for generating feature information for each divided block and dividing each frame image by one or a plurality of scales, and scene division for dividing a scene from a target video for generating the feature information And a histogram generating means for generating a histogram based on the appearance ratio for each block using the block obtained by the block feature information generating means for each scene divided by the scene dividing means.

また、本発明の一態様における画像処理プログラムは、映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、前記コンピュータを、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させる。   An image processing program according to an aspect of the present invention is an image processing program for causing a computer to execute image processing for extracting feature information of each scene included in a video. Sampling acquisition means for sampling the frame image, block feature information generation means for generating feature information for each divided block for each frame image obtained by the sampling acquisition means, and generating the feature information for each divided block; Based on the appearance ratio of each block using the block obtained by the block feature information generating means for each scene divided by the scene dividing means for dividing the scene from the target video for generating information Histogram generator for generating histograms To function as.

本発明によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。   According to the present invention, it is possible to appropriately acquire feature information for each scene included in a video.

多重スケール画像片ワードヒストグラムの概念図である。It is a conceptual diagram of a multiscale image piece word histogram. 本実施形態におけるブロック画像例を示す図である。It is a figure which shows the example of a block image in this embodiment. 画像処理装置の機能構成の一例を示す図である。It is a figure which shows an example of a function structure of an image processing apparatus. 多重スケール画像片ワードの生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the production | generation process of a multiscale image piece word. 画像片ワードの生成の流れを示す図である。It is a figure which shows the flow of a production | generation of an image fragment word. 多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of a multiscale image piece word histogram production | generation process. 多重スケール画像片ワードヒストグラムの生成の流れを示す図である。It is a figure which shows the flow of a production | generation of a multiscale image piece word histogram. 検索処理の一例を示すフローチャートである。It is a flowchart which shows an example of a search process. 距離Dの算出例を示す図である。Distance is a diagram showing an example of calculation of D i. クエリーとする12種類のシーンとそれぞれについて設定した正解映像内容を示す図である。It is a figure which shows 12 types of scenes used as a query, and the content of the correct video set about each. 関連度の概略的な算出例を示す図である。It is a figure which shows the rough calculation example of a relevance degree. 本実施形態における検索結果の一例を示す図である。It is a figure which shows an example of the search result in this embodiment. 比較手法の一例を示す図である。It is a figure which shows an example of the comparison method. 実験結果の比較例を示す図である。It is a figure which shows the comparative example of an experimental result. 精度比較の一例を示す図である。It is a figure which shows an example of an accuracy comparison.

<本発明について>
本発明は、映像に含まれる複数のフレーム画像を用いて、映像(例えば、シーン毎)に対する特徴情報を取得する。具体的には、各フレーム画像に対して1又は複数の異なる画像サイズ(以下、「多重スケール」という)を有する画像片ワードのヒストグラム(多重スケール画像片ワードヒストグラム、Histogram of Multi−scale Image Piece Word、以下、必要に応じて「H−MIPW」という)に基づく特徴情報を用いて各シーンの分類を行う。
<About the present invention>
The present invention acquires feature information for a video (for example, for each scene) using a plurality of frame images included in the video. Specifically, a histogram of image fragment words having one or a plurality of different image sizes (hereinafter referred to as “multi-scale”) for each frame image (multi-scale image fragment word histogram, Histogram of Multi-scale Image Piece Word). Hereinafter, the scenes are classified using feature information based on “H-MIPW” as necessary.

画像片とは、例えば1フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ(スケール)は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、H−MIPWは、例えばブロック画像の種類と出現比率(頻度)による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。   An image piece is, for example, each block image obtained by dividing one frame image by dividing it into a predetermined image size. The image size (scale) may be, for example, a square or other shapes. The word is, for example, predetermined feature information such as a reference vector, but is not limited thereto. H-MIPW is based on a still image classification method based on, for example, the type and appearance ratio (frequency) of a block image, and expands the block size to a multi-scale and a moving image feature.

ここで、図1は、多重スケール画像片ワードヒストグラムの概念図である。また、図2は、本実施形態におけるブロック画像例を示す図である。図1の例では、所定のシーンからサンプリングしたフレーム画像を1又は複数種類の画像サイズ毎にブロック単位で分割し、分割した画像片に対して特徴情報に基づく多重スケール画像片ワードヒストグラム(H−MIPW)を生成し、シーン中にどの種類のブロック画像がどのくらい存在するか(出現比率)を取得する。   Here, FIG. 1 is a conceptual diagram of a multiscale image fragment word histogram. FIG. 2 is a diagram illustrating an example of a block image in the present embodiment. In the example of FIG. 1, a frame image sampled from a predetermined scene is divided into blocks for each of one or more types of image sizes, and a multiscale image fragment word histogram (H− MIPW) is generated, and how many types of block images are present in the scene (appearance ratio) is acquired.

ここで、ブロック画像の種類は、映っている内容(被写体)と強い因果関係がある。例えば図2に示すように、「空」、「山、森」、「夕焼け」等の映像の内容は、フレーム画像を分割した各ブロックから取得することができる。したがって、したがって、上述したH−MIPWは、シーンの内容を包括的に表現する特徴の1つと考えることができる。本実施形態では、H−MIPWに基づいて、例えば複数のフレーム画像を含むシーンの特徴情報を取得する。   Here, the type of block image has a strong causal relationship with the content (subject) being shown. For example, as shown in FIG. 2, the contents of the video such as “sky”, “mountain, forest”, “sunset”, and the like can be acquired from each block obtained by dividing the frame image. Therefore, the above-described H-MIPW can be considered as one of the features that comprehensively express the contents of the scene. In the present embodiment, scene feature information including a plurality of frame images is acquired based on H-MIPW, for example.

また、本実施形態では、シーンが1つのヒストグラムで表現されるため、適切なシーンの分類により類似度を高速に算出することができ、取得した特徴情報を用いて映像内容の類似性に基づいたシーン検索を可能とする。以下に、画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。   In the present embodiment, since the scene is represented by one histogram, the similarity can be calculated at high speed by appropriate scene classification, and based on the similarity of the video content using the acquired feature information. Allows scene search. Hereinafter, embodiments in which an image processing apparatus and an image processing program are suitably implemented will be described in detail with reference to the drawings.

<画像処理装置の機能構成例>
図3は、画像処理装置の機能構成の一例を示す図である。図3の例に示す画像処理装置10は、大別すると、特徴抽出装置20と、シーン検索装置30とを有する。なお、本実施形態における画像処理装置10は、特徴抽出装置20及びシーン検索装置30のうちの何れかを有する構成であってもよい。
<Example of functional configuration of image processing apparatus>
FIG. 3 is a diagram illustrating an example of a functional configuration of the image processing apparatus. The image processing device 10 illustrated in the example of FIG. 3 includes a feature extraction device 20 and a scene search device 30 when roughly classified. Note that the image processing apparatus 10 according to the present embodiment may be configured to include any one of the feature extraction apparatus 20 and the scene search apparatus 30.

特徴抽出装置20は、予め設定された準備用(サンプル)フレーム画像集合を入力し、画像片ワードを生成する。また、特徴抽出装置20は、例えば映像を所定の間隔(例えば、一定間隔や映像区切り等)で区切ったシーン(複数のフレーム画像)を入力し、そのシーンに対して上述した画像片ワードヒストグラム(H−MIPW)を算出する。シーン検索装置30は、特徴抽出装置20で得られたH−MIPWの類似性に基づき、予め蓄積された映像情報の中からユーザ等の要求シーンに対応するシーンを検索する。以下に、特徴抽出装置20及びシーン検索装置30について具体的に説明する。   The feature extraction device 20 inputs a set of preparatory (sample) frame images, and generates an image fragment word. In addition, the feature extraction apparatus 20 inputs, for example, a scene (a plurality of frame images) obtained by dividing a video at a predetermined interval (for example, a fixed interval or a video separator), and the above-described image fragment word histogram (for the scene). H-MIPW) is calculated. Based on the H-MIPW similarity obtained by the feature extraction device 20, the scene retrieval device 30 retrieves a scene corresponding to a requested scene such as a user from video information stored in advance. Hereinafter, the feature extraction device 20 and the scene search device 30 will be specifically described.

特徴抽出装置20は、サンプリング取得手段21と、分割ブロック設定手段22と、画像片ワード生成手段(ブロック特徴情報生成手段)23と、シーン分割手段24と、ヒストグラム生成手段25とを有する。また、シーン検索装置30は、ヒストグラム生成手段31と、検索手段32とを有する。   The feature extraction device 20 includes a sampling acquisition unit 21, a divided block setting unit 22, an image fragment word generation unit (block feature information generation unit) 23, a scene division unit 24, and a histogram generation unit 25. In addition, the scene search device 30 includes a histogram generation unit 31 and a search unit 32.

サンプリング取得手段21は、予め蓄積された準備用(サンプル)映像集合41から、所定の間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングし、準備用フレーム画像集合42(P,・・・,PN_P)を出力する。所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット(例えば、映像の切り替わり)の先頭画像であってもよい。 The sampling acquisition means 21 samples a frame image at a predetermined interval (for example, T 1 frame) from a preliminarily accumulated (sample) video set 41 and prepares a preparatory frame image set 42 (P 1 ,...・, P N_P ) is output. The predetermined interval (T 1 ) is, for example, a predetermined constant frame interval, but is not limited thereto, and may be, for example, a constant time interval, and each shot ( For example, it may be the first image of video switching).

分割ブロック設定手段22は、画像片ワード生成手段23により生成される1又は複数の画像片(画像ブロック)の大きさ(スケール、画像サイズ)、種類、及び数等のうち、少なくとも1つを設定する。例えば、分割ブロック設定手段22は、画像片の大きさを4×4画素、8×8画素、16×32画素の3種類と設定することができるが、画像片の大きさや数はこれに限定されるものではない。なお、画像ブロックの設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル(例えば、ニュース番組、スポーツ、ドラマ)等に対応して自動的に設定されてもよい。更に、分割ブロック設定手段22は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(Saliency Map)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも1つを設定してもよい。顕著性マップは、周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。   The divided block setting unit 22 sets at least one of the size (scale, image size), type, number, and the like of one or a plurality of image pieces (image blocks) generated by the image piece word generation unit 23. To do. For example, the divided block setting means 22 can set the size of the image piece as three types of 4 × 4 pixels, 8 × 8 pixels, and 16 × 32 pixels, but the size and number of the image pieces are limited to this. Is not to be done. The image block setting may be set by the user in advance, and is automatically set according to the resolution of the input video, the genre of the video (for example, news program, sports, drama), etc. May be. Further, the divided block setting means 22 has at least one of the size, type, number, and the like of the image pieces based on the saliency map (Saliency Map) representing the “conspicuous area” in the entire image with respect to the video. May be set. In the saliency map, an area having a property different from that of the surrounding area is extracted as an “area having high saliency (attracting attention)”.

画像片ワード生成手段23は、例えば分割ブロック設定手段22により設定された条件等に基づいて、準備用フレーム画像集合42から画像片ワード43(W)を生成する。なお、画像片ワードの具体的な生成手法については、後述する。   The image fragment word generation unit 23 generates an image fragment word 43 (W) from the preparation frame image set 42 based on, for example, the conditions set by the divided block setting unit 22. A specific method for generating an image fragment word will be described later.

シーン分割手段24は、ユーザ等により入力手段等を用いて指定される検索対象映像44(V,・・・,VN_T)に対して、所定の間隔(例えば、Tフレーム)毎のシーンに自動分割し、検索対象シーン45(S,・・・,SN_S)を生成する。 The scene dividing means 24 is a scene for every predetermined interval (for example, T 2 frame) with respect to the search target video 44 (V 1 ,..., V N_T ) designated by the user or the like using the input means. Are automatically divided to generate a search target scene 45 (S 1 ,..., S N — S).

なお、検索対象映像44とは、シーン毎の特徴情報を抽出する対象の映像を意味し、本実施形態では、一例として、後述するシーン検索装置30における検索対象となる映像を示している。また、所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、また映像の区切りの最初のフレームの間隔であってもよい。また、所定の間隔(T)は、上述した所定の間隔(T)と同一間隔であってもよく、異なる間隔であってもよい。 Note that the search target video 44 means a target video from which feature information for each scene is extracted, and in the present embodiment, as an example, a search target video in the scene search device 30 described later is shown. Further, the predetermined interval (T 2 ) is, for example, a preset constant frame interval, but is not limited to this, and may be, for example, a fixed time interval, or may be the first of video segmentation. It may be an interval of frames. Further, the predetermined interval (T 2 ) may be the same interval as the predetermined interval (T 1 ) described above, or may be a different interval.

ヒストグラム生成手段25は、映像を一定間隔で区切ったシーンである検索対象シーン45(S,・・・,SN_S)を入力し、その各シーンの画像片ワードヒストグラム46(H,・・・,HN_S)を出力する。なお、ヒストグラム生成手段25における画像片ワードヒストグラム46の具体的な生成例については、後述する。 The histogram generation means 25 inputs search target scenes 45 (S 1 ,..., S N — S), which are scenes obtained by dividing the video at regular intervals, and the image fragment word histogram 46 (H 1 ,.・, H N_S ) is output. A specific generation example of the image fragment word histogram 46 in the histogram generation means 25 will be described later.

このように、特徴抽出装置20を用いて、画像片(ブロック領域)単位の特徴を用いることにより、例えば検索精度の向上等につながる高精度な画像の特徴情報を抽出することができる。   As described above, by using the feature of the image piece (block region) unit using the feature extraction device 20, it is possible to extract the feature information of the image with high accuracy that leads to the improvement of the search accuracy, for example.

なお、上述した準備用映像集合41、準備用フレーム画像集合42、画像片ワード43、検索対象映像44、検索対象シーン45、画像片ワードヒストグラム46は、画像処理装置10内に設けられる記憶手段等に記憶されていてもよく、また外部装置(例えば、データベースサーバ)等で管理されていてもよい。外部装置で管理される場合、画像処理装置10は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークを介して外部装置とデータの送受信が可能な状態で接続され、外部装置で記憶されているデータの読み出しや、外部装置への書き込みを行うことができる。   The preparation video set 41, the preparation frame image set 42, the image fragment word 43, the search target video 44, the search target scene 45, and the image fragment word histogram 46 are stored in the image processing apparatus 10 or the like. Or may be managed by an external device (for example, a database server) or the like. When managed by an external device, the image processing apparatus 10 is connected in a state where data can be transmitted to and received from the external device via a communication network represented by the Internet or a LAN (Local Area Network), for example. Reading stored data and writing to an external device can be performed.

シーン検索装置30において、ヒストグラム生成手段31は、ユーザ等から入力される要求シーンに対して、上述した特徴抽出装置20におけるヒストグラム生成手段25と同様に、ヒストグラムを生成する。図3の例では、ユーザ等により要求される検索対象のシーン51(V)に対してヒストグラムを生成し、要求シーンに対する画像片のヒストグラム52(H)を出力する。 In the scene search device 30, the histogram generation unit 31 generates a histogram for a requested scene input from a user or the like, similar to the histogram generation unit 25 in the feature extraction device 20 described above. In the example of FIG. 3, a histogram is generated for the search target scene 51 (V Q ) requested by the user or the like, and an image fragment histogram 52 (H Q ) for the requested scene is output.

検索手段32は、要求シーンの画像片ワードヒストグラム52に基づいて、上述した特徴抽出装置20で取得した各シーンの画像片ワードヒストグラム46を参照して同様のシーンの検索を行い、その検索結果53を出力する。なお、検索結果53は、例えば予め設定された閾値以上の画像片の類似度を有するシーンであればよいが、これに限定されるものではない。例えば、類似度が高い順に所定数のシーンを出力してもよい。なお、上述した要求シーン51、要求シーンの画像片ワードヒストグラム52、検索結果53は、例えば予め設定された記憶手段に記憶されていてもよく、外部のデータベース等で管理されていてもよい。   Based on the image fragment word histogram 52 of the requested scene, the retrieval unit 32 retrieves the same scene by referring to the image fragment word histogram 46 of each scene acquired by the feature extraction device 20 described above, and the retrieval result 53. Is output. For example, the search result 53 may be a scene having a similarity between image pieces equal to or greater than a preset threshold, but is not limited thereto. For example, a predetermined number of scenes may be output in descending order of similarity. The requested scene 51, the image fragment word histogram 52 of the requested scene, and the search result 53 described above may be stored in, for example, a preset storage unit, or may be managed in an external database or the like.

上述したように、本実施形態において画像片は、画像中の内容との相関が強いと考えられるため、H−MIPWは映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、要求シーンに対して高精度な検索を行うことができ、類似性の高いシーンを取得することができる。   As described above, in the present embodiment, since the image piece is considered to have a strong correlation with the content in the image, H-MIPW can be an effective moving image feature for scene search based on the similarity of the video content. Therefore, a highly accurate search can be performed on the requested scene, and a scene with high similarity can be acquired.

次に、上述したブロック画像の種類を表す多重スケール画像片ワード(以下、必要に応じて「MIPWORD」という)、及び所定のシーン単位のH−MIPWの算出例について、具体的に説明する。   Next, a calculation example of the above-described multi-scale image fragment word (hereinafter referred to as “MIPWORD” as necessary) representing the type of block image and a predetermined scene unit H-MIPW will be specifically described.

<多重スケール画像片ワード(MIPWord)の例について>
上述した画像片ワード生成手段23における多重スケール画像片ワード(MIPWord)を生成する手法について説明する。MIPWordは、例えば検索対象映像から無作為に選んだ準備用映像等を用いて生成する。図4は、多重スケール画像片ワードの生成処理の一例を示すフローチャートである。また、図5は、画像片ワードの生成の流れを示す図である。
<Example of Multiscale Image Single Word (MIPWord)>
A method for generating a multi-scale image fragment word (MIPWord) in the image fragment word generation means 23 described above will be described. The MIPWord is generated by using, for example, a preparation video randomly selected from the search target video. FIG. 4 is a flowchart illustrating an example of a multiscale image fragment word generation process. FIG. 5 is a diagram showing a flow of generation of an image fragment word.

図4の例において、画像片ワード生成処理は、準備用映像集合から所定のフレーム画像をサンプリングする(S01)。サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。次に、画像片ワード生成処理は、サンプリングした各フレーム画像を1又は複数スケールにブロック分割する(S02)。S02の処理では、例えばフレーム画像毎にスケール1(nW1×nH1個),・・・,スケールN(nWNd×nHNd個)の複数のスケールで、それぞれブロック分割する。 In the example of FIG. 4, the image fragment word generation process samples a predetermined frame image from the preparation video set (S01). For sampling, for example, frame images at regular intervals may be acquired, or frame images may be acquired based on video segmentation or the like. Next, in the image fragment word generation process, each sampled frame image is divided into blocks of one or a plurality of scales (S02). In the process of S02, for example, each frame image is divided into blocks at a plurality of scales of scale 1 (n W1 × n H1 ),..., Scale N d (n WNd × n HNd ).

次に、画像片ワード生成処理は、分割した各ブロック画像について、所定の特徴ベクトル(特徴情報)を算出する(S03)。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、複数の特徴情報を組み合わせてもよい。色特徴としては、例えばRGB平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、CS−LBP(Center Symmetric − Local Binary Pattern)特徴等がある。   Next, the image fragment word generation process calculates a predetermined feature vector (feature information) for each divided block image (S03). Examples of the predetermined feature vector include a color feature and a texture feature, but are not limited thereto. Other features may be used, and a plurality of feature information may be combined. Examples of the color feature include an RGB average value vector and a hue histogram. The texture features include, for example, a fractal sequence, an edge direction histogram, a CS-LBP (Center Symmetric-Local Binary Pattern) feature, and the like.

次に、画像片ワード生成処理は、各スケールi(i=1,・・・,N)において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング(分類分け)する(S04)。なお、S04の処理において、クラスタリング手法は、例えばK−Means法等の分割最適化法を用いることができるが、これに限定されるものではない。S04の処理により生成された,各スケールiにおけるK個のクラスタをC[i,1],・・・,C[i,K]とする。 Next, in the image fragment word generation process, the block image sets are clustered (classified) based on the similarity of the feature vectors at each scale i (i = 1,..., N d ) (S04). In the process of S04, the clustering method can be a division optimization method such as the K-Means method, but is not limited to this. Let K i clusters in each scale i generated by the process of S04 be C [i, 1],..., C [i, K i ].

次に、画像片ワード生成処理は、例えば各クラスタC[i,k]の中心ベクトルw[i,k]を要素とする画像片ワードW={w[1,1],・・・,w[i,k],・・・,w[N,KNd]}を多重スケール画像片ワード(MIPWord)として生成する(S05)。そして、生成された多重スケール画像片ワード(MIPWord)を記憶手段(例えば、画像片ワード43)等に記憶する(S06)。 Next, in the image fragment word generation processing, for example, an image fragment word W = {w [1, 1],..., W having the center vector w [i, k] of each cluster C [i, k] as an element. [I, k],..., W [N d , K Nd ]} are generated as multi-scale image fragment words (MIPWord) (S05). Then, the generated multiscale image fragment word (MIPWord) is stored in storage means (for example, image fragment word 43) or the like (S06).

図5の例では、上述した図4に示す処理において、ブロック分割スケールN=2の場合のMIPWord生成の流れを示している。図5に示すように、同一の準備用(サンプル)映像に対して複数のスケール(画像サイズ)でブロック分割し、それぞれのスケールで分割された画像片毎に特徴ベクトルに基づいてクラスタリングして、画像片ワードを生成する。 The example of FIG. 5 shows the flow of MIPWord generation when the block division scale N d = 2 in the process shown in FIG. As shown in FIG. 5, the same preparation (sample) video is divided into blocks at a plurality of scales (image sizes), and each piece of image divided at each scale is clustered based on a feature vector, Generate an image fragment word.

なお、準備用映像は、例えば検索対象映像や検索要求シーン等のジャンル(例えば、ニュース、各種のスポーツ(サッカー、野球)等)が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段22により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。   For example, when a genre (for example, news, various sports (soccer, baseball), etc.) such as a search target video or a search request scene is determined in advance, the preparation video is a preparation video of the same genre. However, the present invention is not limited to this. Further, the scale is set to an arbitrary scale, type, and number, for example, by the divided block setting means 22 described above. The scale may be arbitrarily set according to the resolution of the input video.

<シーン単位の多重スケール画像片ワードヒストグラム(H−MIPW)の算出例>
次に、所定のシーン単位のH−MIPWの算出例について、図を用いて説明する。本実施形態では、多重スケール画像片ワード(MIPWord)に基づき、検索対象映像の各シーンのH−MIPWを算出する。
<Example of Calculation of Multi-Scale Image Single Word Histogram (H-MIPW) in Scene Unit>
Next, a calculation example of H-MIPW for a predetermined scene unit will be described with reference to the drawings. In the present embodiment, the H-MIPW of each scene of the search target video is calculated based on the multiscale image piece word (MIPWord).

ここで、図6は、多重スケール画像片ワードヒストグラム生成処理の一例を示すフローチャートである。また、図7は、多重スケール画像片ワードヒストグラムの生成の流れを示す図である。   Here, FIG. 6 is a flowchart showing an example of the multiscale image fragment word histogram generation processing. FIG. 7 is a diagram showing a flow of generating a multiscale image fragment word histogram.

図6において、多重スケール画像片ワードヒストグラム生成処理は、例えば各スケールから生成されたMIPWord(W)を構成するベクトルw{i,k}の数と同じ数からなるヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}を準備し(S11)、各要素の初期値を0とする(S12)。 In FIG. 6, the multi-scale image fragment word histogram generation processing is performed by, for example, a histogram H = {h [1] having the same number as the number of vectors w {i, k} constituting MIPWord (W) generated from each scale. 1],..., H [i, k],..., H [N d , K Nd ]} are prepared (S11), and the initial value of each element is set to 0 (S12).

次に、多重スケール画像片ワードヒストグラム生成処理は、シーンSの各ショットから所定間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングする(S13)。次に、多重スケール画像片ワードヒストグラム生成処理は、サンプリングした各フレーム画像を1又は複数スケールにブロック分割する(S14)。このときのスケールは、例えば、上述したS02の同様のスケール(スケール1(nW1×nW1個),・・・,スケールN(nWNd×NHNd個)であってもよく、S02の処理で得られる複数のスケール(例えば、5種類)に含まれる所定数(例えば、3種類)のスケールであってもよい。 Next, in the multiscale image fragment word histogram generation process, frame images are sampled from each shot of the scene S at predetermined intervals (for example, T frames) (S13). Next, in the multiscale image piece word histogram generation processing, each sampled frame image is divided into blocks of one or a plurality of scales (S14). The scale at this time may be, for example, the same scale as in S02 described above (scale 1 (n W1 × n W1 ),..., Scale N d (n WNd × N HNd ). A predetermined number (for example, three types) of scales included in a plurality of scales (for example, five types) obtained by processing may be used.

次に、多重スケール画像片ワードヒストグラム生成処理は、S14の処理で得られた各ブロック画像について、上述したS03の処理と同様に特徴ベクトルを算出する(S15)。次に、各スケールi(i=1,・・・,N)において、全ブロック画像についてヒストグラムHの各要素の加算を行う(S16)。S16の処理では、具体的にはMIPWord(W)のW[i,k](k=1,・・・,K)の中で、ブロック画像の特徴ベクトルと最も類似度の高いものをw[i,k']とする。また、S16の処理では、最も類似度の高い特徴ベクトルw[i,k']に対応するヒストグラムHの要素h[i,k']に1を加算する。 Next, in the multiscale image piece word histogram generation process, a feature vector is calculated for each block image obtained in the process of S14 as in the process of S03 described above (S15). Next, in each scale i (i = 1,..., N d ), each element of the histogram H is added to all block images (S16). In the process of S16, specifically, among W [i, k] (k = 1,..., K i ) of MIPWord (W), the one having the highest similarity with the feature vector of the block image is represented by w. [I, k ′]. In the process of S16, 1 is added to the element h [i, k ′] of the histogram H corresponding to the feature vector w [i, k ′] having the highest similarity.

また、多重スケール画像片ワードヒストグラム生成処理は、ヒストグラムHの各要素をサンプリングした全フレーム画像数で除算し(S18)、算出されたヒストグラムH={h[1,1],・・・,h[i,k],・・・,h[N,KNd]}をシーンSのH−MIPWとし、記憶手段(例えば、画像片ワードヒストグラム46)等に記憶する(S19)。 In the multiscale image fragment word histogram generation process, each element of the histogram H is divided by the total number of sampled frame images (S18), and the calculated histogram H = {h [1,1],. [I, k],..., H [N d , K Nd ]} are set as the H-MIPW of the scene S and stored in the storage means (for example, the image fragment word histogram 46) or the like (S19).

図7の例では、上述した図6に示す多重スケール画像片ワードヒストグラム生成処理に対するブロック分割スケールN=2の場合の処理の流れを示している。図7の例では、検索対象映像に含まれるシーン(複数ショット)S毎に所定の間隔(T)でフレーム画像をサンプリングし、複数のスケールにブロック分割する。 The example of FIG. 7 shows the flow of processing when the block division scale N d = 2 with respect to the multiscale image fragment word histogram generation processing shown in FIG. In the example of FIG. 7, a frame image is sampled at a predetermined interval (T) for each scene (multiple shots) S included in the search target video, and is divided into a plurality of scales.

また、図7の例では、分割された各ブロックの特徴ベクトルに基づいて、生成済みのMIPWORD(W)に対して各ブロックの特徴ベクトルに最も近いw[j,k]を求め、対応するh[j,k]を加算する。これにより、図7の例に示すように、シーンSのH−MIPWを取得することができる。したがって、本実施形態では、シーン毎の特徴情報を抽出することができると共に、画像分類を迅速かつ適切に行うことができる。   In the example of FIG. 7, w [j, k] closest to the feature vector of each block is obtained for the generated MIPWORD (W) based on the feature vector of each divided block, and the corresponding h Add [j, k]. As a result, the H-MIPW of the scene S can be acquired as shown in the example of FIG. Therefore, in this embodiment, feature information for each scene can be extracted, and image classification can be performed quickly and appropriately.

<多重スケール画像片ワードヒストグラム(H−MIPW)を用いたシーン検索>
次に、シーン検索装置30における多重スケール画像片ワードヒストグラム(H−MIPW)を用いたシーン検索の一例について説明する。
<Scene Search Using Multiscale Image Single Word Histogram (H-MIPW)>
Next, an example of scene search using a multiscale image fragment word histogram (H-MIPW) in the scene search device 30 will be described.

図8は、検索処理の一例を示すフローチャートである。図8の例において、検索処理は、各要素を識別する変数の初期値i=1とし(S21)、検索対象シーンSの画像片ワードヒストグラムHと、要求シーンの画像片ワードヒストグラムHとの距離Dを算出する(S22)。ここで、図9は、距離Dの算出例を示す図である。本実施形態では、図9に示すように、要求シーンと検索対象シーンSのそれぞれの画像片ワードヒストグラムH、Hのベクトルの距離Dを要素毎に求めることで、類似性に基づく検索を行う。 FIG. 8 is a flowchart illustrating an example of the search process. In the example of FIG. 8, the search process, the initial value i = 1 of the variable that identifies each element (S21), the search target scene S and the image piece word histogram H i of i, the image piece word histogram H Q requests scenes A distance D i is calculated (S22). Here, FIG. 9 is a diagram illustrating a calculation example of the distance D i . In the present embodiment, as shown in FIG. 9, the distance D i between the image fragment word histograms H Q and H i of each of the request scene and the search target scene S i is obtained for each element, and thus based on similarity. Perform a search.

つまり、検索処理は、i=i+1として(S23)順番に次の要素についてベクトルの距離Dを算出する。ここで、例えばiがN_S(要素の最後)よりも値が大きいか否かを判断し(S24)、iの値がN_Sよりも大きくない場合(S24において、NO)、S22の処理に戻る。また、iの値がN_Sより大きい場合(S24において、YES)、距離Dが小さい方が、類似度が高いため、距離Dの小さい方から予め設定された上位NHIT個のシーン検索結果を出力する(S25)。つまり、S25の処理は、類似度の高い方から上位NHIT個のシーン検索結果を出力するのと同様である。 That is, in the search process, i = i + 1 is set (S23), and the vector distance D i is calculated for the next element in order. Here, for example, it is determined whether or not i is greater than N_S (the last of the elements) (S24). If i is not greater than N_S (NO in S24), the process returns to S22. Furthermore, (in S24, YES) when the value of i is greater than n_s distance towards D i is small, due to high degree of similarity, the distance D Top N HIT pieces of scene search result set in advance from the smaller i Is output (S25). That is, the processing of S25 is the same as outputting the top N HIT scene search results from the one with the higher similarity.

これにより、画像処理装置10は、映像中に含まれるシーンに対して適切な特徴情報を設定し、設定した特徴情報を用いて高精度なシーン検索を実現することができる。   As a result, the image processing apparatus 10 can set appropriate feature information for a scene included in a video, and can realize a highly accurate scene search using the set feature information.

<実験結果>
次に、本実施形態における効果を明確にするため、一例として実際の番組映像を対象とした各シーンのH−MIPWの類似性に基づくシーン検索実験について説明し、「映像内容の類似したシーンを検索する」という観点でのH−MIPWの性能を検証する。
<Experimental result>
Next, in order to clarify the effect of this embodiment, a scene search experiment based on the similarity of H-MIPW of each scene targeting an actual program video will be described as an example. The performance of H-MIPW in terms of “search” is verified.

<実験条件>
実験条件としては、使用映像の一例として自然関連の放送番組映像254本を用い、MIPWord生成用の準備用映像100本を用いる。また、検索対象映像も254本を用いる。シーンの区切りは、1シーンのショット数を固定とし、5ショット毎に1シーンとした。全シーン数は約7300であり、フレーム画像正規化サイズは320×180とし、ブロック分割スケールはNd=2、スケール1(16×16画素)、スケール2(8×8画素)とする。また、MIPWord数は、スケール1及びスケール2は共に750とする。
<Experimental conditions>
As an experimental condition, 254 nature-related broadcast program videos are used as an example of a use video, and 100 preparation videos for MIPWord generation are used. Also, 254 videos to be searched are used. The scene delimiter was fixed at the number of shots in one scene, and one scene for every five shots. The total number of scenes is about 7300, the frame image normalization size is 320 × 180, the block division scale is Nd = 2, scale 1 (16 × 16 pixels), and scale 2 (8 × 8 pixels). The number of MIPWords is 750 for both scale 1 and scale 2.

ここで、図10は、クエリーとする12種類のシーンとそれぞれについて設定した正解映像内容を示す図である。各画像は、シーンを構成するショットの先頭画像である。図10の例に示すクエリーシーン(Q1〜Q12)は、検索対象映像の中から正解設定の容易さを考慮した上で無作為に選択されたものである。また、正解映像内容は「各ショットの何れかに映り、かつ内容の面である程度重要であると思われる被写体」という観点で設定しているが、これに限定されるものではない。例えば、図10のクエリーシーンQ1の正解映像内容は、{山、空と山(空+山),花、枝、鳥}等である。また、クエリーシーンQ2の正解映像内容は、{建造物遠景,建造物近景色,街の遠景}等である。   Here, FIG. 10 is a diagram showing twelve types of scenes to be queried and the correct video content set for each. Each image is a head image of a shot constituting the scene. The query scenes (Q1 to Q12) shown in the example of FIG. 10 are randomly selected from the search target videos in consideration of easy setting of correct answers. The correct video content is set from the viewpoint of “a subject that appears in any one of the shots and is considered to be important to some extent in terms of content”, but is not limited to this. For example, the correct video content of the query scene Q1 in FIG. 10 is {mountain, sky and mountain (sky + mountain), flower, branch, bird}. The correct video content of the query scene Q2 includes {building distant view, building close view, city distant view} and the like.

本実施形態では、上述したクエリーシーンのH−MIPWと検索対象全シーンのH−MIPWとのヒストグラムインターセクションによる類似度を算出し、類似度の高い順に検索対象シーンを並べ替えることで、検索結果を得ることができる。   In the present embodiment, the similarity by the histogram intersection between the H-MIPW of the query scene and the H-MIPW of all search target scenes is calculated, and the search target scenes are rearranged in descending order of the similarity, thereby obtaining a search result. Can be obtained.

<精度評価のための尺度>
ここで、検索結果の精度を評価するための尺度(関連度)について説明する。関連度は、シーンの各ショットが正解映像内容と関連しているか、及びシーンがどれだけ正解映像内容を網羅しているか等の両面を考慮して定めることができるが、これに限定されるものではなく、例えば上述の何れかであってもよい。ここで、あるシーンと正解映像内容との関連度Rを、「R=(2RsRc/(Rs+Rc)) ・・・(1)」のように設定することができる。ここで、Rsは、「シーンにおける正解映像内容の何れかを含むショット比率」である。また、Rcは、「何れかのショットに含まれる正解映像内容の比率」を表す。
<Measure for accuracy evaluation>
Here, a scale (relevance) for evaluating the accuracy of the search result will be described. The degree of relevance can be determined in consideration of both aspects such as whether each shot of the scene is related to the correct video content and how much the correct video content is covered by the scene, but is limited to this. Instead, for example, any of the above may be used. Here, the degree of association R between a certain scene and the correct video content can be set as “R = (2RsRc / (Rs + Rc)) (1)”. Here, Rs is “a shot ratio including any correct video content in a scene”. Rc represents “the ratio of correct video content included in any shot”.

図11は、関連度の概略的な算出例を示す図である。図11に示すあるシーンを構成する5つのショットの中で、このシーンの正解映像内容である{月,山,海,魚}の何れかが映るショットは、図11の□印を付けた3つ(フレーム画像1,2,4)である。したがって、上述したショット比率Rsは、3/5=60%となる。   FIG. 11 is a diagram illustrating a schematic calculation example of the degree of association. Of the five shots that make up a scene shown in FIG. 11, the shot that shows one of the correct video contents of this scene, {moon, mountain, sea, fish}, is marked 3 in FIG. (Frame images 1, 2, 4). Therefore, the above-described shot ratio Rs is 3/5 = 60%.

一方、4つの正解映像内容{月,山,海,魚}の中で、シーンの何れかのショットに映っているものは、○印を付けた3つ(月,山,海)である。したがって、上述した正解映像内容の比率Rcは、3/4=75%となる。そして、上述した(1)式により、このシーンと正解映像内容との関連度Rは66.7%となる。   On the other hand, among the four correct video contents {moon, mountain, sea, fish}, three (moon, mountain, sea) marked with ○ are shown in any shot of the scene. Therefore, the ratio Rc of the correct video content described above is 3/4 = 75%. Then, according to the above-described equation (1), the degree of association R between this scene and the correct video content is 66.7%.

<シーン検索結果例>
次に、H−MIPWを用いたシーン検索結果例について説明する。ここで、図12は、本実施形態における検索結果の一例を示す図である。図12(a)〜図12(c)は、検索結果例1〜3を示すものである。具体的には、図12(a)は、上述した図10に示すクエリーシーンQ1に対する検索結果上位20シーンを示している。また同様に、図12(b)がクエリーシーンQ3、図12(c)がクエリーシーンQ9に対するそれぞれの検索結果上位20シーンを示している。
<Scene search result example>
Next, an example of a scene search result using H-MIPW will be described. Here, FIG. 12 is a diagram illustrating an example of a search result in the present embodiment. 12 (a) to 12 (c) show search result examples 1 to 3. FIG. Specifically, FIG. 12A shows the top 20 search results for the query scene Q1 shown in FIG. Similarly, FIG. 12B shows the top 20 search results for the query scene Q3, and FIG. 12C shows the top 20 search results for the query scene Q9.

各画像は、シーンを構成する各ショットの先頭画像である。画像の左上に付けられた○印は、関連度算出における「正解映像内容の何れかを含むショット」を示している。また、検索結果のシーンの右側の表中○印は「何れかのショットに含まれる正解映像内容」を示している。図12(a)〜(c)のそれぞれについて関連度を算出すると、検索結果の上位20シーンの正解映像内容との関連度の平均値は、図12(a)が52.1%、図12(b)が68.9%、図12(c)が68.9%であった。なお、上述の例では、番組映像のジャンルを自然番組に絞っているが、多種多様なある意味「雑多」なシーン集合を検索対象としていることを考慮すると高精度な結果であるといえる。   Each image is a head image of each shot constituting the scene. The ◯ mark attached to the upper left of the image indicates “a shot including any of the correct video contents” in the relevance calculation. In the table on the right side of the scene of the search result, the ◯ mark indicates “correct video content included in any shot”. When the relevance is calculated for each of FIGS. 12A to 12C, the average value of the relevance with the correct video content of the top 20 scenes of the search results is 52.1% in FIG. (B) was 68.9% and FIG. 12 (c) was 68.9%. In the above example, the genre of the program video is narrowed down to the natural program. However, it can be said that the result is highly accurate considering that a variety of meaning “miscellaneous” scene sets are targeted for retrieval.

<関連手法との精度比較結果>
次に、本実施形態の有効性を客観的に実証するため、関連手法との精度比較結果について説明する。まず、ブロック分割を多重スケールにすることの効果を検証するために、2つの手法を比較対象とする。図13は、比較手法の一例を示す図である。図13(a)は、比較手法1として、画像片(ブロック画像)でワードを生成することによる優位性を実証するために、従来の局所特徴を用いたBag of Visual Wordsによる手法を示している。代表的な局所特徴としては、輝度勾配ベースのSIFT(Scale Invariant Feature Transform)特徴、及びSURF(Speeded Up Robust Features)特徴、SIFT特徴をカラー画像用に拡張したColor−SIFT特徴等を用いることができる。この度の比較では、Color−SIFT特徴を比較対象とし、Visual Wordsのワード数は1000とする。
<Accuracy comparison results with related methods>
Next, in order to objectively demonstrate the effectiveness of the present embodiment, the accuracy comparison result with the related method will be described. First, in order to verify the effect of block division using multiple scales, two methods are compared. FIG. 13 is a diagram illustrating an example of the comparison method. FIG. 13A shows a conventional method of Bag of Visual Words using local features in order to demonstrate the superiority of generating a word with an image fragment (block image) as a comparison method 1. . As representative local features, a luminance gradient-based SIFT (Scale Invariant Feature Transform) feature, a SURF (Speeded Up Robust Features) feature, a Color-SIFT feature obtained by extending the SIFT feature for color images, and the like can be used. . In this comparison, the Color-SIFT feature is a comparison target, and the number of words of Visual Words is 1000.

また、図13(b)は、比較手法2として、本実施形態における分割するスケールの種類が1種類(スケール1(16×16画素))のみのブロック分割での画像片ワードヒストグラムによる手法を示している。   FIG. 13B shows a method based on the image fragment word histogram in the block division with only one type of scale to be divided (scale 1 (16 × 16 pixels)) as the comparison method 2 in the present embodiment. ing.

比較手法1である局所特徴のBag of Words手法は、一枚の画像の複写体識別については、ある程度良好な性能を示している。しかしながら、比較手法2に示すブロック画像とは異なり、各ワードと被写体との関連性が弱い。したがって、例えばシーン検索のように、複数フレームを統合して処理する場合には、異なる映像内容である2つのシーンと、Bag of Visual Wordsが類似してしまうといったケースが生じ易くなる。   The local feature Bag of Words method, which is the comparison method 1, shows a somewhat good performance for identifying a copy of an image. However, unlike the block image shown in the comparison method 2, the relevance between each word and the subject is weak. Therefore, for example, when a plurality of frames are integrated and processed as in a scene search, a case where two scenes having different video contents and Bag of Visual Words are similar is likely to occur.

また、図14は、実験結果の比較例を示す図である。図14では、クエリーシーンQ12に対する各手法による検索結果の上位20シーンを示している。なお、図14(a)は、上述した比較手法1による検索結果を示し、図14(b)は、上述した比較手法2(分割スケールが1種類)による検索結果を示している。また、図14(c)は、比較手法3として、本実施形態における分割するスケールの種類が複数種類のブロック分割での画像片ワードヒストグラムによる手法を示している。また、図14の各画像及び図中の○印は、何れかのショットに含まれる正解映像内容を示している。   Moreover, FIG. 14 is a figure which shows the comparative example of an experimental result. FIG. 14 shows the top 20 scenes of the search results obtained by the respective methods for the query scene Q12. 14A shows a search result by the above-described comparison method 1, and FIG. 14B shows a search result by the above-described comparison method 2 (one kind of division scale). FIG. 14C shows a method using an image fragment word histogram as a comparison method 3 in block division with multiple types of scales in this embodiment. Further, each image in FIG. 14 and a circle in the figure indicate the content of the correct video included in any shot.

図14(a)〜図14(c)をそれぞれ比較すると、図14(c)が○印が最も多い。ここで、本実施形態におけるシーン検索では、1ページ目に表示する検索結果数は最大20個程度である。したがって、検索結果上位20シーンの正解映像内容との関連度Rの平均値で精度を評価することができる。   Comparing FIG. 14A to FIG. 14C, FIG. 14C has the largest number of circles. Here, in the scene search in the present embodiment, the maximum number of search results displayed on the first page is about 20. Therefore, the accuracy can be evaluated by the average value of the degree of association R with the correct video content of the top 20 search results.

図14(a)〜図14(c)のそれぞれについて算出した精度は、図14(a)が43.2%、図14(b)が63.5%、図14(c)が73.2%であり、本実施形態の一例である比較手法3が、検索精度が最も高いことがわかる。   The accuracy calculated for each of FIGS. 14A to 14C is 43.2% in FIG. 14A, 63.5% in FIG. 14B, and 73.2 in FIG. 14C. It can be seen that the comparison method 3 which is an example of this embodiment has the highest search accuracy.

ここで、図15は、精度比較の一例を示す図である。図15(a)では、各クエリーに対して評価結果として、上述した図14(a)〜図14(c)のそれぞれの手法による精度を示している。また、図15(b)では、図15(a)で示した全クエリーでの精度を平均した全体(Total)での精度を示している。   Here, FIG. 15 is a diagram illustrating an example of accuracy comparison. FIG. 15A shows the accuracy by the respective methods of FIGS. 14A to 14C described above as evaluation results for each query. FIG. 15B shows the accuracy of the total (Total) obtained by averaging the accuracy of all the queries shown in FIG.

図15(a)を参照すると、比較手法3と比較手法1との比較については、8つのクエリーシーン(Q1〜Q4,Q7,Q8,Q10,Q12)において精度が高い。また、図15(b)に示すように、全体で13%の精度向上を得た。また、比較手法3と比較手法2との比較については、9つのクエリーシーン(Q2〜Q5,Q7,Q9〜Q12)において本実施形態の精度が高く、全体でも4%の精度向上となった。   Referring to FIG. 15A, the comparison between the comparison method 3 and the comparison method 1 is highly accurate in the eight query scenes (Q1 to Q4, Q7, Q8, Q10, and Q12). Further, as shown in FIG. 15B, the accuracy was improved by 13% as a whole. As for comparison between the comparison method 3 and the comparison method 2, the accuracy of the present embodiment is high in nine query scenes (Q2 to Q5, Q7, Q9 to Q12), and the accuracy is improved by 4% as a whole.

これにより、局所特徴(Color−SIFT)でなく、画像片(ブロック画像)によるワードを用いた本実施形態の優位性を示すことができる。更に、画像片は、複数のスケールを生成するのが好ましいことが分かる。本実施形態により、H−MIPWを用いることで、映像内容の類似性に基づいた高精度なシーン検索を実現することができる。   Thereby, it is possible to show the superiority of the present embodiment using words based on image pieces (block images) instead of local features (Color-SIFT). Further, it can be seen that the image pieces preferably generate multiple scales. According to the present embodiment, by using H-MIPW, it is possible to realize a highly accurate scene search based on the similarity of video contents.

<実行プログラム>
ここで、上述した画像処理装置10は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
<Execution program>
Here, the above-described image processing apparatus 10 includes, for example, a CPU (Central Processing Unit), a volatile storage device such as a RAM (Random Access Memory), a nonvolatile storage device such as a ROM (Read Only Memory), a mouse and a keyboard. It can be configured by a computer having an input device such as a pointing device, a display device for displaying images and data, and an interface device for communicating with the outside.

したがって、画像処理装置10が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。   Therefore, the above-described functions of the image processing apparatus 10 can be realized by causing the CPU to execute a program describing these functions. These programs can also be stored and distributed in a recording medium such as a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), or a semiconductor memory.

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(画像処理プログラム)を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、画像処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、例えば上述した各処理を実現することができる。   That is, an image processing can be realized by generating an execution program (image processing program) for causing a computer to execute the processing in each configuration described above and installing the program in, for example, a general-purpose personal computer or server. it can. In addition, about the process by the execution program in this embodiment, each process mentioned above is realizable, for example.

上述したように本実施形態によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。また、特徴情報に基づく適切なシーンの分類により類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を実現することができる。   As described above, according to the present embodiment, the feature information for each scene included in the video can be appropriately acquired. Further, the similarity can be quickly acquired by appropriate scene classification based on the feature information. Therefore, it is possible to realize a highly accurate scene search based on the similarity of the image features of the entire scene.

例えば、複数カットからなるシーン検索のための動画特徴として、多重スケールのブロック画像の種類と出現比率による多重スケール画像片ワードヒストグラムを用いることで、高精度な画像分類を行うことができる。また、本実施形態を適用することで、例えば放送番組映像に対するシーン検索等や映像内容の類似性に基づいたシーン検索が可能となる。したがって、例えば従来のようにシーンの代表サムネイル画像ではなく、シーン全体の画像特徴の類似性に基づいて高精度なシーン検索を実現することができる。   For example, high-precision image classification can be performed by using a multi-scale image fragment word histogram based on types and appearance ratios of multi-scale block images as moving image features for scene search including a plurality of cuts. Further, by applying this embodiment, for example, a scene search for a broadcast program video or a scene search based on the similarity of video content can be performed. Therefore, for example, it is possible to realize a highly accurate scene search based on the similarity of the image features of the entire scene, not the representative thumbnail image of the scene as in the prior art.

以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。   The preferred embodiment has been described in detail above, but the disclosed technique is not limited to the specific embodiment, and various modifications, within the scope of the disclosed technique described in the claims, It can be changed.

10 画像処理装置
20 特徴抽出装置
21 サンプリング取得手段
22 分割ブロック設定手段
23 画像片ワード生成手段(ブロック特徴情報生成手段)
24 シーン分割手段
25,31 ヒストグラム生成手段
30 シーン検索装置
32 検索手段
41 準備用映像集合
42 準備用フレーム画像集合
43 画像片ワード
44 検索対象映像
45 検索対象シーン
46,52 画像片ワードヒストグラム
51 要求シーン
53 検索結果
DESCRIPTION OF SYMBOLS 10 Image processing apparatus 20 Feature extraction apparatus 21 Sampling acquisition means 22 Division | segmentation block setting means 23 Image piece word generation means (block characteristic information generation means)
24 Scene division means 25, 31 Histogram generation means 30 Scene search device 32 Search means 41 Preparation video set 42 Preparation frame image set 43 Image fragment word 44 Search object video 45 Search object scene 46, 52 Image fragment word histogram 51 Required scene 53 Results

Claims (5)

映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、
サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、
前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段と、
前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段とを有することを特徴とする画像処理装置。
In an image processing apparatus that extracts feature information of each scene included in a video,
Sampling acquisition means for sampling a predetermined frame image from a sample video;
Block feature information generating means for dividing each frame image obtained by the sampling acquisition means for each of one or a plurality of scales and generating feature information for each divided block;
Scene dividing means for dividing a scene from the target video for generating the feature information;
Histogram generation means for generating a histogram based on the appearance ratio for each block using the block obtained by the block feature information generation means for each scene divided by the scene division means. apparatus.
前記ヒストグラム生成手段は、ユーザからの検索要求シーンに対してブロック単位のヒストグラムを生成し、
生成された前記検索要求シーンを用いて、前記ヒストグラム生成手段で生成されたヒストグラムを参照し、対応するシーンを検索する検索手段とを有することを特徴とする請求項1に記載の画像処理装置。
The histogram generation means generates a block unit histogram for a search request scene from a user,
The image processing apparatus according to claim 1, further comprising: search means for searching for a corresponding scene by referring to the histogram generated by the histogram generation means using the generated search request scene.
前記ブロック特徴情報生成手段により生成される1又は複数のブロックの大きさ、種類、及び数のうち、少なくとも1つを設定する分割ブロック設定手段を有することを特徴とする請求項1又は2に記載の画像処理装置。   3. The divided block setting unit that sets at least one of the size, type, and number of one or a plurality of blocks generated by the block feature information generation unit. Image processing apparatus. 前記特徴情報は、色特徴又はテクスチャ特徴であることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the feature information is a color feature or a texture feature. 映像に含まれる各シーンの特徴情報を抽出する画像処理をコンピュータに実行させるための画像処理プログラムにおいて、
前記コンピュータを、
サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段、
前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段、
前記特徴情報を生成する対象映像からシーンを分割するシーン分割手段、及び、
前記シーン分割手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段として機能させるための画像処理プログラム。
In an image processing program for causing a computer to execute image processing for extracting feature information of each scene included in a video,
The computer,
Sampling acquisition means for sampling a predetermined frame image from a sample video;
Block feature information generating means for dividing each frame image obtained by the sampling acquisition means into one or a plurality of scales and generating feature information for each divided block;
Scene dividing means for dividing a scene from the target video for generating the feature information; and
An image processing program for functioning as a histogram generation unit that generates a histogram based on an appearance ratio for each block using a block obtained by the block feature information generation unit for each scene divided by the scene division unit.
JP2013004775A 2013-01-15 2013-01-15 Image processing apparatus and image processing program Active JP6034702B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013004775A JP6034702B2 (en) 2013-01-15 2013-01-15 Image processing apparatus and image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013004775A JP6034702B2 (en) 2013-01-15 2013-01-15 Image processing apparatus and image processing program

Publications (2)

Publication Number Publication Date
JP2014137637A true JP2014137637A (en) 2014-07-28
JP6034702B2 JP6034702B2 (en) 2016-11-30

Family

ID=51415117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013004775A Active JP6034702B2 (en) 2013-01-15 2013-01-15 Image processing apparatus and image processing program

Country Status (1)

Country Link
JP (1) JP6034702B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112448A (en) * 2015-12-15 2017-06-22 日本放送協会 Video scene division device and video scene division program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10294923A (en) * 1997-04-18 1998-11-04 Matsushita Electric Ind Co Ltd Scene change detection method and scene change detector
JP2004280669A (en) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> Image feature information generation method, image feature information generation device, and image feature information generation program
JP2010252013A (en) * 2009-04-15 2010-11-04 Nippon Hoso Kyokai <Nhk> Video retrieving apparatus and video retrieving program
JP2011248671A (en) * 2010-05-27 2011-12-08 Kddi Corp Image retrieval device, program, and method for retrieving image among multiple reference images using image for retrieval key

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10294923A (en) * 1997-04-18 1998-11-04 Matsushita Electric Ind Co Ltd Scene change detection method and scene change detector
JP2004280669A (en) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> Image feature information generation method, image feature information generation device, and image feature information generation program
JP2010252013A (en) * 2009-04-15 2010-11-04 Nippon Hoso Kyokai <Nhk> Video retrieving apparatus and video retrieving program
JP2011248671A (en) * 2010-05-27 2011-12-08 Kddi Corp Image retrieval device, program, and method for retrieving image among multiple reference images using image for retrieval key

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016037815; Jianzhao Qin et al.: 'Scene categorization with multiscale category-specific visual words' Optical Engineering [online] Vol. 48, No. 4, 200904, pp. 047203-1 - 047203-13, International Society for Optical Engineering *
JPN6016037816; 柳井啓司: 'Bag-of-Featuresによるカテゴリー認識' 画像ラボ 第20巻,第1号, 20090110, pp. 59-64, 日本工業出版株式会社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017112448A (en) * 2015-12-15 2017-06-22 日本放送協会 Video scene division device and video scene division program

Also Published As

Publication number Publication date
JP6034702B2 (en) 2016-11-30

Similar Documents

Publication Publication Date Title
US10810252B2 (en) Searching using specific attributes found in images
Khosla et al. Large-scale video summarization using web-image priors
JP5503046B2 (en) Image search based on shape
JP4337064B2 (en) Information processing apparatus, information processing method, and program
AU2016210608A1 (en) Modifying at least one attribute of an image with at least one attribute extracted from another image
CN108881947B (en) Method and device for detecting infringement of live stream
CN111209897B (en) Video processing method, device and storage medium
US9430718B1 (en) Efficient local feature descriptor filtering
EP2929485B1 (en) Matching a feature of captured visual data
Wang et al. Duplicate discovery on 2 billion internet images
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
Blažek et al. Video retrieval with feature signature sketches
JP6034702B2 (en) Image processing apparatus and image processing program
JP4544047B2 (en) Web image search result classification presentation method and apparatus, program, and storage medium storing program
Chen et al. Mobile visual search from dynamic image databases
Tencer et al. A new framework for online sketch-based image retrieval in web environment
JP2015130041A (en) Image processing apparatus and image processing program
Tsai Two strategies for bag-of-visual words feature extraction
JP6254771B2 (en) Image processing apparatus and image processing program
Li et al. Image content clustering and summarization for photo collections
Doulamis et al. A 4D virtual/augmented reality viewer exploiting unstructured web-based image data
Castelo-Fernández et al. Automatic video summarization using the optimum-path forest unsupervised classifier
Özkan et al. Visual group binary signature for video copy detection
Ge et al. Robust visual object clustering and its application to sightseeing spot assessment
Mashhadani et al. Identification and extraction of digital forensic evidence from multimedia data sources using multi-algorithmic fusion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161028

R150 Certificate of patent or registration of utility model

Ref document number: 6034702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250