JP2009212605A - Information processing method, information processor, and program - Google Patents
Information processing method, information processor, and program Download PDFInfo
- Publication number
- JP2009212605A JP2009212605A JP2008051154A JP2008051154A JP2009212605A JP 2009212605 A JP2009212605 A JP 2009212605A JP 2008051154 A JP2008051154 A JP 2008051154A JP 2008051154 A JP2008051154 A JP 2008051154A JP 2009212605 A JP2009212605 A JP 2009212605A
- Authority
- JP
- Japan
- Prior art keywords
- pixel data
- data
- information processing
- processing method
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、画像データを構成する画素データを複数のクラスタに分類するための情報処理方法、情報処理装置及びプログラムに関する。 The present invention relates to an information processing method, an information processing apparatus, and a program for classifying pixel data constituting image data into a plurality of clusters.
従来から、画像データを構成する画素データを、例えば色特徴、テクスチャ特徴等の所定の特徴データに基づいて分類する処理(クラスタリング処理)が知られている。このクラスタリング処理は、例えば画像データから複数の領域を抽出する画像セグメンテーション処理を実行するための代表的な手法となっている。画像セグメンテーション処理は、例えばオブジェクト符号化や画像検索等、画像処理の様々な分野で前処理として利用されている。 Conventionally, a process (clustering process) for classifying pixel data constituting image data based on predetermined feature data such as a color feature and a texture feature is known. This clustering process is a typical technique for executing an image segmentation process for extracting a plurality of regions from image data, for example. Image segmentation processing is used as preprocessing in various fields of image processing such as object coding and image search.
代表的なクラスタリング手法としては、例えばK平均法(K-means)、ファジィc平均法(Fussy c-means)等があるが、これらのクラスタリング手法では、データが収束してクラスタリング処理が終了するまでに膨大な時間が掛かるという問題がある。 Typical clustering methods include, for example, K-means (K-means), fuzzy c-means (Fussy c-means), etc. In these clustering methods, until the data converges and the clustering process is completed. There is a problem that it takes an enormous amount of time.
そのような問題を解決する技術の1つとして、例えば下記特許文献1には、分割対象の入力画像Iiを第1の間引き率Raで間引いた第1の間引き画像IaをK平均アルゴリズムにより領域分割して、入力画像Iiの領域のおおよその数および中心を推定し、次に、その推定結果を用いて、入力画像Iiを第1の間引き率Raより小さい第2の間引き率Rbで間引いた第2の間引き画像IbをK平均アルゴリズムにより領域分割して、入力画像Iiの領域の数および中心を算出し、次に、その算出された領域のうちの最も適切な領域に、入力画像Iiに含まれるすべての画素を配分する、画像領域分割方法が記載されている。
しかしながら、上記特許文献1に記載の技術では、第1の間引き画像及び第2の間引き画像をそれぞれ領域分割する際にK平均アルゴリズムを用いているため、間引き画像といえども、2回の領域分割処理には時間を要する。また、間引き率を高くすれば、領域分割処理時間の短縮は図れるものの、その領域分割処理の精度が低下してしまう。そして、間引き画像を用いて生成された分割領域によって、入力画像に含まれるすべての画素が配分される分割領域が確定してしまうため、間引き画像を用いた領域分割処理の精度の低下は、分割領域を用いたその後の画像処理の精度にも影響を与えてしまう。
However, since the technique described in
以上のような事情に鑑み、本発明の目的は、画像データ中の各画素データを高精度かつ短時間で分類することが可能な情報処理方法、情報処理装置及びプログラムを提供することにある。 In view of the circumstances as described above, an object of the present invention is to provide an information processing method, an information processing apparatus, and a program capable of classifying pixel data in image data with high accuracy and in a short time.
上述の課題を解決するため、本発明の主たる観点に係る情報処理方法は、画像データを構成する複数の画素データを逐次入力し、前記入力される各画素データの所定の特徴値が、既入力の画素データの前記特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類する。 In order to solve the above-described problem, an information processing method according to a main aspect of the present invention sequentially inputs a plurality of pixel data constituting image data, and a predetermined feature value of each input pixel data is already input. It is determined for each input whether or not the pixel value is within a predetermined range value from the feature value of the pixel data, and the pixel data that has been input to the pixel data that is determined that the feature value is within the predetermined range value The first identification information that is the same as the data is given, and the second identification information that is different from the first identification information is given to the pixel data determined that the feature value is not within the predetermined range value, A plurality of pixel data is classified into a first number of clusters.
ここで所定の特徴値とは、例えば各画素の色特徴やテクスチャ特徴等を多次元の特徴ベクトルデータとして表現したものである。 Here, the predetermined feature value is, for example, a color feature or texture feature of each pixel expressed as multidimensional feature vector data.
本発明の構成によれば、上記入力された画素データの特徴値が所定範囲値であるか否かに応じて画素データに逐次識別情報を付与することで、K-means等の従来のクラスタリング手法を用いる場合に比べて、画素データを高精度かつ短時間で分類することが可能となる。 According to the configuration of the present invention, a conventional clustering technique such as K-means is performed by sequentially adding identification information to pixel data according to whether or not the feature value of the input pixel data is a predetermined range value. It is possible to classify pixel data with high accuracy and in a short time compared to the case of using.
上記情報処理装置は、さらに、前記分類により同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された複数の画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類してもよい。 The information processing apparatus further regards the pixel data classified into the same cluster by the classification as pixel data having the same feature value, and determines the plurality of classified pixel data by the predetermined clustering method. You may classify | categorize into the 2nd number cluster smaller than the number of 1. FIG.
ここで所定のクラスタリング手法とは、例えばK平均法(K-means)、ファジィc平均法(Fussy c-means)、エントロピー法(Entropy method)、ウォード法(Ward's method)、自己組織化写像(Self-organizing maps, SOM)等であるが、これらに限られるものではない。同一の特徴値を有する画素データとは、例えば、同一のクラスタに属する各画素データの各特徴値の平均値である。 Here, the predetermined clustering method is, for example, a K-means method, a fuzzy c-means method, an entropy method, a Ward's method, a self-organizing map (Self -organizing maps, SOM), etc., but is not limited to these. The pixel data having the same feature value is, for example, the average value of the feature values of the pixel data belonging to the same cluster.
また、上記既入力の画素データが複数存在する場合には、上記第1の識別情報は複数の異なる識別情報となる。識別情報付与対象の画素データの特徴値が、その複数の異なる識別情報を有するの各画素データの各特徴値のいずれからも所定範囲値内にない場合に、その画素データに第2の識別情報が付与される。この場合、上記第1の数は、3つ以上の数になる。すなわち、上記構成は、クラスタ数が2つのみであることを意味するものではなく、画素データが少なくとも2つのクラスタに分類されることを意味する。 In addition, when there are a plurality of pieces of already input pixel data, the first identification information is a plurality of different pieces of identification information. When the feature value of the pixel data to which the identification information is to be added is not within a predetermined range value from any of the feature values of the pixel data having the plurality of different pieces of identification information, the second identification information is included in the pixel data. Is granted. In this case, the first number is three or more. That is, the above configuration does not mean that the number of clusters is only two, but means that the pixel data is classified into at least two clusters.
本発明の構成によれば、入力された画素データを、上記特徴値が所定範囲値内であるかに応じてまず第1の数のクラスタに分類し、同一のクラスタに分類された画素データを同一の特徴値を有する画素データと見なして、画素データのクラス(種類)数を減らしておき、その上で、各画素データを第2の数のクラスタに分類することができる。このように、画素データのクラス数を一端減らしてからクラスタリングを実行することで、多数のデータを直接クラスタリングする従来のクラスタリング手法に比べて、クラスタリング処理の収束までに要する処理数及び処理時間を大幅に減らすことができる。すなわち、クラスタリング処理の処理負荷を極力軽くすることができる。 According to the configuration of the present invention, the input pixel data is first classified into a first number of clusters according to whether the feature value is within a predetermined range value, and the pixel data classified into the same cluster is It can be regarded as pixel data having the same feature value, and the number (class) of pixel data is reduced, and then each pixel data can be classified into a second number of clusters. In this way, by reducing the number of classes of pixel data and then performing clustering, the number of processes and processing time required for convergence of the clustering process are greatly increased compared to conventional clustering methods that directly cluster a large number of data. Can be reduced. That is, the processing load of the clustering process can be reduced as much as possible.
また、画像データを構成する全ての画素データを用いて第1の数のクラスタに分類するため、例えば画像データを所定の間引き率で間引いた画像を用いる場合に比べて、処理時間を短縮しながらも、より高精度に分類処理を実行することができる。 Further, since all the pixel data constituting the image data is used to classify into the first number of clusters, for example, the processing time is shortened as compared with a case where an image obtained by thinning image data at a predetermined thinning rate is used. However, the classification process can be executed with higher accuracy.
上記情報処理方法は、さらに、前記第1の数のクラスタに分類された複数の画素データのうち、所定方向上に存在する連続した複数の第1の画素データと、前記所定方向上に存在し前記第1の画素データとは異なる連続した複数の第2の画素データと、前記所定方向上に前記第1の画素データと前記第2の画素データとの間に存在する少なくとも1つの第3の画素データとを抽出し、前記第1の画素データと前記第2の画素データの前記識別情報が同一であり、前記第3の画素データの前記識別情報が前記第1及び第2の画素データとは異なる場合に、前記第3の画素データの識別情報を、前記第1及び第2の画素データの識別情報へ置換してもよい。 The information processing method may further include a plurality of continuous first pixel data existing in a predetermined direction among the plurality of pixel data classified into the first number of clusters, and the predetermined direction. A plurality of continuous second pixel data different from the first pixel data, and at least one third pixel data existing between the first pixel data and the second pixel data in the predetermined direction. Pixel data is extracted, the identification information of the first pixel data and the second pixel data is the same, and the identification information of the third pixel data is the first and second pixel data May be replaced with the identification information of the first pixel data and the identification information of the second pixel data.
これにより、第1の画素データと第2の画素データとの間に存在する第3の画素データの識別情報が第1及び第2の画素データの識別情報と異なる場合には、第3の画素データをノイズと見なして、その識別情報を置換することで、ノイズを除去することができる。これにより、上記分類処理をより効率よく実行することができる。ここで所定方向とは、例えばX方向またはY方向である。 Thus, when the identification information of the third pixel data existing between the first pixel data and the second pixel data is different from the identification information of the first and second pixel data, the third pixel The noise can be removed by regarding the data as noise and replacing the identification information. Thereby, the said classification process can be performed more efficiently. Here, the predetermined direction is, for example, the X direction or the Y direction.
上記情報処理方法は、さらに、前記入力された各画素データ中の高周波成分をローパスフィルタにより除去してもよい。 In the information processing method, a high-frequency component in each input pixel data may be removed by a low-pass filter.
これにより、上記置換処理で置換しきれなかったノイズも除去することができ、上記分類処理をさらに効率よく実行することができる。 Thereby, noise that could not be replaced by the replacement process can be removed, and the classification process can be executed more efficiently.
上記情報処理方法は、さらに、前記第2の数のクラスタに分類された複数の画素データを基に、前記画像データを任意形状の前記第2の数の領域に分割しても構わない。 The information processing method may further divide the image data into the second number of regions having an arbitrary shape based on a plurality of pixel data classified into the second number of clusters.
これにより、上記第2の数のクラスタに分類された画素データを用いて、いわゆる画像セグメンテーション処理を実行することができる。 Thereby, so-called image segmentation processing can be executed using the pixel data classified into the second number of clusters.
上記情報処理方法は、さらに、前記分割された第2の数の領域毎に、複数の前記画像データ間で動きベクトルを検出し、前記検出された動きベクトルを基に、複数の前記画像データで構成される映像データ中の、カメラ動作により生じる所定の映像特徴を検出してもよい。 The information processing method further detects a motion vector between the plurality of image data for each of the divided second number of regions, and uses the plurality of image data based on the detected motion vector. A predetermined video feature generated by camera operation may be detected in the video data to be configured.
これにより、上記第2の数のクラスタを基に分割された第2の数の領域毎に動きベクトルを検出することで、上記映像特徴を効率よく検出することができる。ここで、カメラ動作により生じる所定の映像特徴とは、例えばパン、チルト、ズーム等の動き特徴である。 Accordingly, the video feature can be efficiently detected by detecting the motion vector for each of the second number of regions divided based on the second number of clusters. Here, the predetermined video features generated by the camera operation are motion features such as pan, tilt, and zoom.
上記情報処理方法において、前記映像特徴を検出するステップは、前記複数の画像データの前記第2の数の領域の画素数をそれぞれ算出し、前記複数の画像データ中の、前記画素数が最も大きい領域間で検出された動きベクトルを基に前記映像データ中の前記所定の映像特徴を検出してもよい。 In the information processing method, the step of detecting the video feature calculates the number of pixels in the second number of regions of the plurality of image data, respectively, and the number of pixels in the plurality of image data is the largest. The predetermined video feature in the video data may be detected based on a motion vector detected between regions.
ここで、画素数(面積)の最も大きい領域間で動きベクトルを検出するのは、画像データが、映像データ中の動く物体の領域と背景映像の領域とに分割された場合、一般的に、背景映像は動く物体よりもその面積が大きいと考えられ、当該背景映像の動きがその映像データ中のカメラ動作を示していると考えられるからである。これにより、上記映像データ中に動く物体が存在していても、当該動く物体の動きを無視して、カメラの動きのみに注目して動きベクトルを検出し、映像特徴を検出することができる。 Here, the motion vector is detected between the regions having the largest number of pixels (area) when the image data is divided into a moving object region and a background image region in the video data. This is because the background video is considered to have a larger area than the moving object, and the movement of the background video is considered to indicate the camera operation in the video data. As a result, even if there is a moving object in the video data, it is possible to detect the video feature by ignoring the movement of the moving object and detecting only the camera movement and detecting the motion vector.
上記情報処理方法は、さらに、前記分割された第2の数の領域毎に、前記画素データを符号化してもよい。 The information processing method may further encode the pixel data for each of the divided second number of regions.
これにより、オブジェクト符号化処理をより効率よく実行することができる。 Thereby, an object encoding process can be performed more efficiently.
上記情報処理方法は、さらに、前記分割された第2の数の領域毎に特徴ベクトルを生成し、複数の前記画像データ間で、前記第2の数のクラスタ毎に前記生成された特徴ベクトルを比較して、前記複数の画像データ間の類似性を判断してもよい。 The information processing method further generates a feature vector for each of the divided second number of regions, and generates the generated feature vector for each of the second number of clusters between the plurality of image data. In comparison, the similarity between the plurality of image data may be determined.
これにより、ある画像データに類似する他の画像データを効率よく検索することができる。 Thereby, other image data similar to certain image data can be searched efficiently.
上記情報処理方法において、前記類似性を判断するステップは、前記複数の画像データの前記第2の数の領域の画素数をそれぞれ算出し、前記複数の画素データ間で、前記画素数が最も大きい領域間で前記特徴ベクトルを比較して前記複数の画像データ間の類似性を判断しても構わない。 In the information processing method, the step of determining similarity calculates the number of pixels in the second number of regions of the plurality of image data, respectively, and the number of pixels is the largest among the plurality of pixel data. The feature vectors may be compared between regions to determine the similarity between the plurality of image data.
ここで、画素数(面積)が最も大きい領域間で特徴ベクトルを比較するのは、面積が最も大きい領域が、各画像データ間の類似性に最も影響を与えると考えられるからである。これにより、画像データ間の類似性の判断処理を、より効率よく高速に実行することが可能となる。 Here, the reason why the feature vectors are compared between the regions having the largest number of pixels (area) is that the region having the largest area is considered to have the most influence on the similarity between the image data. As a result, the similarity determination process between the image data can be executed more efficiently and at high speed.
上記情報処理方法は、前記第1の数のクラスタに分類するステップは、前記第1の数が所定数となるまで前記所定範囲値を可変して前記分類を繰り返してもよい。 In the information processing method, the step of classifying into the first number of clusters may repeat the classification by changing the predetermined range value until the first number reaches a predetermined number.
これにより、分類結果に応じて所定範囲値を可変して分類処理を繰り返すことで、最適な数までクラスタ数を減少させることが可能となる。 As a result, the number of clusters can be reduced to an optimum number by repeating the classification process by changing the predetermined range value according to the classification result.
上記情報処理方法は、前記第1の数のクラスタに分類するステップは、前記第1の数が所定数となった場合には、前記第2の数のクラスタへの分類を実行しないよう制御しても構わない。 In the information processing method, the step of classifying into the first number of clusters controls not to execute the classification into the second number of clusters when the first number reaches a predetermined number. It doesn't matter.
これにより、第1の数が十分少ない数にまで分類できたときは、それ以上分類を行わないことで、処理時間をより短縮することができる。 Thereby, when the first number can be classified into a sufficiently small number, the processing time can be further shortened by not performing further classification.
本発明の他の観点に係る情報処理装置は、画像データを構成する複数の画素データを逐次入力する入力手段と、前記入力される各画素データの特徴値が、既入力の画素データの特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類する第1の分類手段と、同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された複数の画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類する第2の分類手段とを具備する。 An information processing apparatus according to another aspect of the present invention includes an input unit that sequentially inputs a plurality of pixel data constituting image data, and a feature value of each input pixel data is a feature value of already input pixel data. Is determined for each input, and the pixel data for which the feature value is determined to be within the predetermined range value is the same as the first input pixel data. Identification information is provided, second identification information different from the first identification information is assigned to pixel data for which the feature value is determined not to be within the predetermined range value, and the plurality of pixel data are set to the first A first classifying unit that classifies the plurality of classified data into a plurality of clusters, and the pixel data classified into the same cluster is regarded as pixel data having the same feature value, and the plurality of classified pixel data are subjected to a predetermined clustering method. The first ; And a second classifying means for classifying the smaller second number of clusters.
ここで情報処理装置とは、例えばPC(Personal Computer)、HDD(Hard Disk Drive)/DVD/BD(Blu-ray Disc)レコーダ等の記録再生装置、サーバ装置、テレビジョン装置、ゲーム機器、デジタルカメラ、デジタルビデオカメラ、携帯電話機等の各種電子機器である。 Here, the information processing apparatus is, for example, a recording / playback apparatus such as a PC (Personal Computer), an HDD (Hard Disk Drive) / DVD / BD (Blu-ray Disc) recorder, a server apparatus, a television apparatus, a game machine, or a digital camera. And various electronic devices such as digital video cameras and mobile phones.
本発明の構成によれば、第1の分類手段により、入力された画素データを、上記特徴値が所定範囲値内であるかに応じてまず第1の数のクラスタに分類し、同一のクラスタに分類された画素データを同一の特徴値を有する画素データと見なして、画素データのクラス(種類)数を減らしておき、その上で、第2の分類手段により、各画素データを第2の数のクラスタに分類することができる。このように、画素データのクラス数を一端減らしてからクラスタリングを実行することで、多数のデータを直接クラスタリングする従来のクラスタリング手法に比べて、クラスタリング処理の収束までに要する処理数及び処理時間を大幅に減らすことができる。すなわち、クラスタリング処理の処理負荷を極力軽くすることができる。また、画像データを構成する全ての画素データを用いて第1の数のクラスタに分類するため、例えば画像データを所定の間引き率で間引いた画像を用いる場合に比べて、処理時間を短縮しながらも、より高精度に分類処理を実行することができる。 According to the configuration of the present invention, the first classifying unit first classifies the input pixel data into the first number of clusters according to whether the feature value is within the predetermined range value, and the same cluster. The pixel data classified into (2) is regarded as pixel data having the same feature value, the number of classes (types) of the pixel data is reduced, and then each pixel data is converted into the second data by the second classification means. It can be classified into a number of clusters. In this way, by reducing the number of classes of pixel data and then performing clustering, the number of processes and processing time required for convergence of the clustering process are greatly increased compared to conventional clustering methods that directly cluster a large number of data. Can be reduced. That is, the processing load of the clustering process can be reduced as much as possible. Further, since all the pixel data constituting the image data is used to classify into the first number of clusters, for example, the processing time is shortened as compared with a case where an image obtained by thinning image data at a predetermined thinning rate is used. However, the classification process can be executed with higher accuracy.
本発明のさらに別の観点に係るプログラムは、情報処理装置に、画像データを構成する複数の画素データを逐次入力するステップと、前記入力される各画素データの所定の特徴値が、既入力の画素データの前記特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類するステップと、同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された複数の画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類するステップとを実行させるためのものである。 A program according to still another aspect of the present invention includes a step of sequentially inputting a plurality of pixel data constituting image data to an information processing apparatus, and a predetermined feature value of each input pixel data is already input. It is determined for each input whether or not the feature value is within a predetermined range value from the feature value of the pixel data, and the already-input pixel data is added to the pixel data that is determined that the feature value is within the predetermined range value. And the second identification information different from the first identification information to the pixel data determined that the feature value is not within the predetermined range value, Classifying the pixel data into a first number of clusters, the pixel data classified into the same cluster as pixel data having the same feature value, Cluster It is for and a step of classifying the first second number of clusters fewer than the number by grayed technique.
以上のように、本発明によれば、画像データ中の各画素データを高精度かつ短時間で分類することができる。 As described above, according to the present invention, each pixel data in the image data can be classified with high accuracy and in a short time.
以下、本発明の実施の形態を図面に基づき説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
まず、本発明の第1の実施形態について説明する。本実施形態においては、情報処理装置として記録再生装置を適用する。
[First Embodiment]
First, a first embodiment of the present invention will be described. In this embodiment, a recording / reproducing apparatus is applied as the information processing apparatus.
図1は、本実施形態に係る記録再生装置100の構成を示した図である。
同図に示すように、記録再生装置100は、CPU(Central Processing Unit)1、RAM(Random Access Memory)2、操作入力部3、セグメンテーション処理部20、映像特徴検出部4、デジタルチューナ5、IEEE1394インタフェース6、Ethernet(登録商標)/無線LAN(Local Area Network)インタフェース7、USB(Universal Serial Bus)インタフェース8、メモリカードインタフェース9、HDD10、光ディスクドライブ11、バッファコントローラ13、セレクタ14、デマルチプレクサ15、AV(Audio/Video)デコーダ16、OSD(On Screen Display)17、映像D/A(Digital/Analog)コンバータ18及び音声D/Aコンバータ19を有している。
FIG. 1 is a diagram showing a configuration of a recording / reproducing
As shown in the figure, a recording / reproducing
CPU1は、必要に応じてRAM2等に適宜アクセスし、記録再生装置100の各ブロック全体を制御する。RAM2は、CPU1の作業用領域等として用いられ、OS(Operating System)やプログラム、処理データ等を一時的に保持するメモリである。
The
操作入力部3は、ボタン、スイッチ、キー、タッチパネルや、リモートコントローラ(図示せず)から送信される赤外線信号の受光部等で構成され、ユーザの操作による各種設定値や指令を入力してCPU1へ出力する。
The
デジタルチューナ5は、CPU1の制御に従って、図示しないアンテナを介してデジタル放送の放送番組の放送信号を受信し、特定のチャンネルの放送信号を選局及び復調する。この放送信号は、セレクタ14を介してデマルチプレクサ15に出力され再生させたり、バッファコントローラ13を介して、HDD10に記録されたり、光ディスクドライブ11に挿入された光ディスク12へ記録されたりする。
Under the control of the
IEEE1394インタフェース6は、例えばデジタルビデオカメラ等の外部機器に接続可能である。例えばデジタルビデオカメラによって撮影され記録された映像コンテンツは、上記デジタルチューナ5によって受信された放送番組の映像コンテンツと同様に、再生されたり、HDD10や光ディスク12へ記録されたりする。
The
Ethernet(登録商標)/無線LANインタフェース7は、例えばPCや他の記録再生装置に記録された映像コンテンツを、Ethernet(登録商標)または無線LAN経由で入力する。この映像コンテンツも、再生や、HDD10または光ディスク12への記録が可能である。
The Ethernet (registered trademark) /
USBインタフェース8は、USBを介して例えばデジタルカメラ等の機器やいわゆるUSBメモリ等の外部記憶装置から映像コンテンツを入力する。この映像コンテンツも、再生や、HDD10または光ディスク12への記録が可能である。
The
メモリカードインタフェース9は、例えばフラッシュメモリを内蔵したメモリカードと接続して、当該メモリカードに記録された映像コンテンツを入力する。この映像コンテンツも、再生や、HDD10または光ディスク12への記録が可能である。
The
HDD10は、放送信号として受信したまたは外部機器から入力した各種映像コンテンツを内蔵のハードディスクに記録し、また再生時にはそれらを当該ハードディスクから読み出し、バッファコントローラ13へ出力する。またHDD10は、OSや、後述する画像セグメンテーション処理及び映像特徴の検出処理を実行するためのプログラム、その他の各種プログラム及びデータ等も格納する。なお、記録再生装置100は、これらOSや各種プログラム及びデータを、HDD10ではなく、フラッシュメモリ(図示せず)等の他の記録媒体に格納するようにしてもよい。
The
光ディスクドライブ11は、上記映像コンテンツ等を光ディスク12に記録し、また再生時にはそれらを読み出し、バッファコントローラ13へ出力する。光ディスク12は、例えばDVD、BD、CD等である。
The
バッファコントローラ13は、例えば上記デジタルチューナ5やその他の各種インタフェースから連続的に供給される映像コンテンツの、HDD10または光ディスク12への書き込みのタイミングやデータ量を制御し、当該映像コンテンツを断続的に書き込む。また、バッファコントローラ13は、HDD10や光ディスク12に記録された映像コンテンツの読み出しのタイミングやデータ量を制御し、断続的に読み出された映像コンテンツを、デマルチプレクサ15へ連続的に供給する。
For example, the
セレクタ14は、上記デジタルチューナ5、各種インタフェース、HDD10及び光ディスクドライブ11のいずれかから入力される映像コンテンツを、CPU1からの制御信号に基づき選択する。
The
デマルチプレクサ15は、前記バッファコントローラ13から入力された、多重化された映像コンテンツを、映像信号と音声信号とに分離して、それらをAVデコーダ16へ出力する。
The
AVデコーダ16は、例えばMPEG(Moving Picture Expert Group)−2やMPEG−4等の形式でエンコードされた映像信号及び音声信号をそれぞれデコードして、映像信号をOSD17へ、また音声信号をD/Aコンバータ19へ出力する。
The
OSD17は、図示しないディスプレイに表示するためのグラフィックス等を生成して、上記映像信号との合成処理や切り替え処理を施し、処理後の映像信号を映像D/Aコンバータ18へ出力する。映像D/Aコンバータ18は、OSD17でグラフィック処理を施された映像信号をD/A変換によりNTSC(National Television Standards Committee)信号とし、図示しないディスプレイに出力して表示させる。
The
音声D/Aコンバータ19は、上記AVデコーダ16から入力された音声信号をD/A変換して、図示しないスピーカに出力して再生させる。
The audio D / A converter 19 D / A converts the audio signal input from the
セグメンテーション処理部20は、AVデコーダ16によるデコード前の映像データ、または、デコード後の映像データを構成する各画像データから複数の領域(オブジェクト)を抽出する。このセグメンテーション処理の詳細は後述する。
The
映像特徴検出部4は、セグメンテーション処理された映像データから、例えばパン、チルト、ズーム等のカメラ動作によって生じる映像特徴を検出する。この映像特徴検出処理の詳細も後述する。
The video
図2は、セグメンテーション処理の概要を示した図である。
セグメンテーション処理とは、同図(A)に示すように、例えば建物21、人物22、道路23等のオブジェクトが含まれる原画像から、同図(B)に示すように、建物21、人物22、道路23にそれぞれ相当する領域21a、22a及び23aを抽出する処理(領域21a、22a及び23aに分割する処理)である。従来のセグメンテーション処理は、原画像を構成する各画素データを、例えばK-means等のクラスタリング手法を用いて複数のクラスタに分類することで実行される。しかし、この従来のセグメンテーション処理には、クラスタリング処理によりデータが収束するまでに時間を要し、システム全体の負担となっていた。そこで本実施形態においては、後述するように、クラスタリング処理を2段階で実施して処理時間の短縮を図っている。
FIG. 2 is a diagram showing an outline of the segmentation process.
As shown in FIG. 6A, segmentation processing is performed from an original image including objects such as a
図3は、上記セグメンテーション処理部20の構成を示した図である。
同図に示すように、セグメンテーション処理部20は、LPF(ローパスフィルタ)処理部31、ID処理部32、閾値設定部33、補間処理部34、K-means処理部35を有する。
FIG. 3 is a diagram showing the configuration of the
As shown in the figure, the
LPF処理部31は、例えばHDD10等から、映像データ中の各画像データを構成する画素データを逐次読み込み、各画素データ中の高周波成分(ノイズ)を除去してID処理部32に出力する。例えば、LPF処理部31は、入力された画素データの値を、直前及び直後の画素データの平均値となるように補正する。
The
ID処理部32は、LPF処理部31から逐次入力した画素データに対して、所定の閾値を基に、識別データ(ID)を付与することで、各画素データを所定数のクラスタに分類し、補間処理部34へ出力する。このID処理部32における処理の詳細については後述する。
The
閾値設定部33は、上記ID処理部32においてID付与の基準となる閾値(範囲)を設定する。
The threshold
補間処理部34は、ID処理部32によりIDを付与された各画素データに対して所定の条件を基にIDの置換処理を実行し、K-means処理部35へ出力する。この補間処理の詳細については後述する。
The
K-means処理部35は、補間処理部34から入力された画素データを、K-means法に基づくクラスタリング処理により複数のクラスタに分類し、その分類結果を、領域抽出結果として出力する。
The K-
本実施形態において処理される各画像データは例えばVGA(Video Graphic Array)サイズ(640×480ドット)である。したがって、上記LPF処理部31には、1つの画像データにつき、640×480=307,200個の画素データが逐次入力されることとなる。つまり、この入力時点において、1つの画像データを構成する画素データのクラスタ数は、307,200である。
Each image data processed in this embodiment is, for example, VGA (Video Graphic Array) size (640 × 480 dots). Therefore, 640 × 480 = 307,200 pieces of pixel data are sequentially input to the
本実施形態において、画素データは、色特徴データとテクスチャ特徴データとから構成される。色特徴データは、例えば画像データのヒストグラムを基に抽出され、例えばRGBの各成分が8ビット(0〜255)で表された3次元のデータである。もちろん、色特徴データは、色差信号(Y/Cb/Cr)を基に表されてもよい。テクスチャ特徴データは、例えば、画像データ中の各画素にウェーブレット変換処理が施されることで、各画素データの周波数成分として抽出される。テクスチャ特徴データも、上記色特徴データに対応して、各8ビットの3次元のデータに正規化される。 In the present embodiment, the pixel data is composed of color feature data and texture feature data. The color feature data is, for example, extracted based on a histogram of image data, and is, for example, three-dimensional data in which each component of RGB is represented by 8 bits (0 to 255). Of course, the color feature data may be expressed based on the color difference signal (Y / Cb / Cr). The texture feature data is extracted as a frequency component of each pixel data, for example, by performing wavelet transform processing on each pixel in the image data. Texture feature data is also normalized to 8-bit three-dimensional data corresponding to the color feature data.
上記閾値設定部33により設定される閾値は、上記色特徴データとテクスチャ特徴データにそれぞれ設定される。色特徴データの閾値は、例えば±2程度に設定され、テクスチャ特徴データの閾値は、例えば±3程度に設定される。
The threshold values set by the threshold
本実施形態においては、上記LPF処理部31から補間処理部34により、画素データの初期クラスタリング処理が実行され、上記K-means処理部35により、本クラスタリング処理が実行される。上述のように入力時に307,200あった画素データのクラスタ数は、初期クラスタリング処理により、数10程度にまで削減され、本クラスタリング処理により、5〜20程度まで削減される。
In this embodiment, the
図4は、上記ID処理部32の構成を示した図である。
同図に示すように、ID処理部32は、データメモリ部41、比較判定部42、スイッチ43、IDメモリ部44、最大IDメモリ部45及びアドレスカウンタ部46を有する。
FIG. 4 is a diagram showing the configuration of the
As shown in the figure, the
データメモリ部41は、画素データを逐次入力して一時的に記憶し、新たな画素データが入力された場合には、その画素データとの比較判定対象としての画素データを比較判定部42へ出力する。
The
比較判定部42は、上記閾値設定部33により設定される閾値を基に、入力された画素データと、データメモリ部41に記憶された画素データとを比較して、入力された画素データが、データメモリ部41に記憶された画素データから閾値の範囲内にあるかを判定し、その比較判定結果をスイッチ43へ出力する。
The
スイッチ43は、比較判定部42による比較判定結果に応じて、比較判定対象の画素データへ、IDメモリ部44に記憶されたIDと同一のIDまたは新たなIDを付与してIDメモリ部44及びCPU1へ出力する。
The
IDメモリ部44は、上記比較判定部42により付与された各画素データのIDを記憶し、各IDのうち最大ID値を最大IDメモリ部44に供給する。
The
最大IDメモリ部45は、上記最大ID値を記憶し、上記比較判定部42により、入力された画素データが閾値の範囲外であると判定された場合に、最大ID値を1インクリメントして、スイッチ43へ出力する。この場合スイッチ43は、この新たな最大ID値を、入力された画素データへ付与して、IDメモリ部44へ出力する。
The maximum
アドレスカウンタ部46は、上記データメモリ部41に記憶されている画素データの記憶領域のアドレスと、IDメモリ部44に記憶されている各画素データのIDの記憶領域のアドレスとの対応関係を管理する。
The
上記データメモリ部41とIDメモリ部44とは、物理的に別々のメモリ素子としてもよいし、1つのメモリ素子を各メモリ用に分割するようにしても構わない。
The
次に、以上のように構成された記録再生装置100の動作について説明する。
Next, the operation of the recording / reproducing
図5は、本実施形態における記録再生装置100の動作の概略的な流れを示したフローチャートである。
同図に示すように、記録再生装置100のセグメンテーション処理部20は、画像データを構成する画素データを逐次入力し(ステップ51)、当該各画素データの入力毎に初期クラスタリング処理を実行する(ステップ52)。次いで、セグメンテーション処理部20は、K-meansにより本クラスタリング処理を実行し(ステップ53)、当該クラスタリング処理結果を基に各画像データから複数の領域を抽出する(ステップ54)。
FIG. 5 is a flowchart showing a schematic flow of the operation of the recording / reproducing
As shown in the figure, the
そして、記録再生装置100の映像特徴検出部4は、1つの映像コンテンツを構成する複数の画像データ間で、上記抽出された領域毎に、動きベクトルを検出することで、映像コンテンツ中のカメラ特徴を検出する(ステップ55)。
Then, the video
図6は、上記ステップ72における初期クラスタリング処理の流れを示したフローチャートである。
同図に示すように、セグメンテーション処理部20のID処理部32は、上記LPF処理部31から画素データを入力すると、まず、初期化処理を実行する(ステップ61)。すなわち、ID処理部32は、画素データ数カウント用のn、ID値を示すid(n)及び初期クラスタリング処理が終了したことを判定するための処理済みフラグflg(n)を、それぞれn=0、id(n)=0、flg(n)=0に設定する。
FIG. 6 is a flowchart showing the flow of the initial clustering process in step 72 described above.
As shown in the figure, when the
続いて、ID処理部32は、画素データd(n)を読み込み(ステップ62)、読み込んだ画素データを上記データメモリ部41に書き込んで記憶する(ステップ63)。
Subsequently, the
続いて、ID処理部32は、上記ステップ62で読み込んだ画素データと、既にデータメモリ部41に記憶されている画素データとを比較し、上記読み込んだ画素データが、既に記憶されている画素データから閾値範囲内であるか否かを判定する(ステップ64)。
Subsequently, the
ここで、この比較判定処理及びID割り当て処理の詳細について説明する。図7は、当該各処理の詳細な流れを示したフローチャートである。
同図に示すように、まず、ID処理部32は、読み込まれた画素データの比較対象である、既にデータメモリ部41に記憶してある画素データのカウンタ値kをk=0に初期化する(ステップ71)。続いて、ID処理部32は、上記既に記憶されている画素データd(k)の処理済みフラグflg(k)がflg(k)=1であるか否か、すなわち、画素データd(k)へのID割り当て処理が済んでいるか否かを確認する(ステップ72)。
Here, details of the comparison determination process and the ID assignment process will be described. FIG. 7 is a flowchart showing a detailed flow of each process.
As shown in the figure, first, the
flg(n)=0である場合(Yes)、すなわち画素データd(k)へのID割り当て処理が済んでいる場合には、ID処理部32は、当該画素データd(k)をデータメモリ部41から読み出す(ステップ73)。
If flg (n) = 0 (Yes), that is, if the ID allocation process for the pixel data d (k) has been completed, the
続いて、ID処理部32は、比較判定部42により、上記読み込まれた画素データd(n)の値が、既に記憶されている画素データd(k)の値から閾値dthの範囲内にあるか否かを判定する(ステップ74)。上述したように、閾値dthは、画素データd(k)の色特徴データとテクスチャ特徴データにそれぞれ設定されるため、ID処理部32は、これら色特徴データとテクスチャ特徴データのそれぞれについて閾値dthを判定する。
Subsequently, the
閾値判定の結果、読み込まれた画素データd(n)が、記憶された画素データd(k)から閾値以内にあると判定された場合、すなわち、|d(n)−d(k)|≦dthであると判定された場合(Yes)には、ID処理部32は、画素データd(n)に対して画素データd(k)と同一のIDを割り当てる(ステップ75)。
As a result of the threshold determination, when it is determined that the read pixel data d (n) is within the threshold from the stored pixel data d (k), that is, | d (n) −d (k) | ≦ If it is determined that it is dth (Yes), the
閾値判定の結果、読み込まれた画素データd(n)が、記憶された画素データd(k)から閾値以内にないと判定された場合、すなわち、|d(n)−d(k)|>dthであると判定された場合(Yes)には、ID処理部32は、上記カウンタ値kを1インクリメントし(ステップ78)する。そして、ID処理部32は、このインクリメントしたkが画素データ数nよりも大きいか否か、すなわち、割り当てるべきIDがもうなくなったか否かを判定する(ステップ78)。
As a result of the threshold determination, when it is determined that the read pixel data d (n) is not within the threshold from the stored pixel data d (k), that is, | d (n) −d (k) |> If it is determined that it is dth (Yes), the
k>nであると判定された場合、ID処理部32は、最大IDメモリ部45から、最大ID値idmaxを検出し、当該最大ID値idmaxを1インクリメントした値を、上記画素データd(n)のIDとして割り当てる(ステップ80)。
When it is determined that k> n, the
k≦nであると判定された場合、ID処理部32は、上記ステップ72以降の処理、すなわち、1インクリメントされた画素データd(k)と画素データd(n)との比較判定処理を実行する。
If it is determined that k ≦ n, the
IDの割り当て処理が終了した場合には、ID処理部32は、上記画素データd(n)についての処理済みフラグflg(n)をflg(n)=1に設定する(ステップ76)。
When the ID assignment process is completed, the
また、上記ステップ72において、flg(k)=0である場合(No)には、ID処理部32は、ステップ77へ進み、kを1インクリメントして、ステップ78以降の処理を実行する。
If flg (k) = 0 in Step 72 (No), the
図6に戻り、IDの割り当て処理が終了すると、ID処理部32は、上記画素データd(n)のカウンタ値nを1インクリメントし(ステップ65)、インクリメント後のnがデータ数の閾値nthを越えたか否かを判定する(ステップ66)。n≦nthの場合(No)には、ID処理部32は、上記ステップ62へ戻り、以降の処理を繰り返す。n>nthの場合、すなわち、所定の画像データ中の、全ての画素データd(n)へのIDの割り当てが終了した場合には、ID処理部32は、上記補間処理部34によるID補間処理を実行して(ステップ67)、本クラスタリング処理へ移行する。
Returning to FIG. 6, when the ID allocation process is completed, the
図8及び図9は、上記ID割り当て処理を概念的に示した図である。
図8に示すように、ID処理部32は、各画素データdに、既に記憶されている画素データから上記閾値dthの範囲内にあるか否かを基に、IDを割り当てることにより、各画素データdを複数のクラスタ(クラスタA〜B)に分類する(初期クラスタリング)。各クラスタに属する画素データは、それぞれの値は異なっていても、初期クラスタリング処理により、同一の値を有する画素データ、すなわち、例えば各クラスタに属する複数の画素データの平均値を有する画素データと見なされる。
8 and 9 are diagrams conceptually showing the ID assignment process.
As shown in FIG. 8, the
図9に示すように、逐次読み込まれる画素データは、先にIDを付与された各クラスタに属する画素データのうち、最初に読み込まれた画素データと順に比較される。 As shown in FIG. 9, sequentially read pixel data is sequentially compared with the first read pixel data among the pixel data belonging to each cluster previously given an ID.
すなわち、同図において、2番目に読み込まれた画素データd(2)は、先にID=1を付与された画素データd(1)と比較され、画素データd(2)が当該画素データd(1)から閾値dth以内にあるため、画素データd(2)にID=1が付与される。 That is, in the figure, the pixel data d (2) read second is compared with the pixel data d (1) previously assigned ID = 1, and the pixel data d (2) is compared with the pixel data d. Since it is within the threshold value dth from (1), ID = 1 is assigned to the pixel data d (2).
3番目に読み込まれた画素データd(3)は、画素データd(1)と比較され、当該画素データd(3)は画素データd(1)から閾値dth以内にないため、画素データd(3)には、ID=1から1インクリメントされたID=2が付与される。 The pixel data d (3) read third is compared with the pixel data d (1). Since the pixel data d (3) is not within the threshold value dth from the pixel data d (1), the pixel data d ( 3) is given ID = 2 which is incremented by 1 from ID = 1.
4番目に読み込まれた画素データd(4)は、ID=1を有する画素データd(1)及びID=2を有するd(2)と順次比較され、当該画素データd(4)は、画素データd(1)及び画素データd(2)のいずれからも閾値dth以内にないため、画素データd(3)には、ID=2から1インクリメントされたID=3が付与される。 The pixel data d (4) read fourth is sequentially compared with pixel data d (1) having ID = 1 and d (2) having ID = 2, and the pixel data d (4) Since neither the data d (1) nor the pixel data d (2) is within the threshold dth, the pixel data d (3) is given ID = 3 which is incremented by 1 from ID = 2.
5番目に読み込まれた画素データd(5)は、ID=1を有する画素データd(1)及びID=3を有する画素データd(3)のいずれからも閾値dth以内にある(閾値dthの範囲がオーバーラップしている)が、この場合は、先に付与された(IDのカウント値が小さい)ID=1が画素データd(5)に付与される。もちろん、閾値dthの範囲がオーバーラップする場合に、後に付与された(IDのカウント値が大きい)ID(この場合ID=3)が付与されても構わない。 The pixel data d (5) read fifth is within the threshold value dth from both the pixel data d (1) having ID = 1 and the pixel data d (3) having ID = 3 (with the threshold value dth). However, in this case, ID = 1 previously assigned (with a small ID count value) is assigned to the pixel data d (5). Of course, when the ranges of the threshold value dth overlap, an ID (in this case, ID = 3) assigned later (ID count value is large) may be assigned.
次に、上記図6のステップ67におけるID補間処理の詳細について説明する。 Next, details of the ID interpolation process in step 67 of FIG. 6 will be described.
図10は、ID補間処理の概略的な流れを示したフローチャートである。図11は、ID補間処理を概念的に示した図である。
図10に示すように、ID補間処理は、画像データ中のX方向におけるID置換処理(ステップ101)と、Y方向におけるID置換処理(ステップ102)からなる。
FIG. 10 is a flowchart showing a schematic flow of the ID interpolation process. FIG. 11 is a diagram conceptually showing the ID interpolation processing.
As shown in FIG. 10, the ID interpolation process includes an ID replacement process (step 101) in the X direction in the image data and an ID replacement process (step 102) in the Y direction.
すなわち、図11(A)及び(B)に示すように、補間処理部34は、画像データ中の、X方向及びY方向の各方向の画素データについて、同一のID(ID=n)を有する複数の画素データの間に存在する、異なるID(ID=m)を有する画素データのIDを、その両隣に存在する画素データのID=nに置換する。これにより、画像データ中のノイズ成分が除去されることとなる。すなわち、補間処理部34は、画素毎に大きくデータ値が変化することはほとんどなく、類似の画素データの間に存在する画素データも類似の画素データであるという前提の下、間に存在する画素データのIDが異なる場合には、当該画素データはノイズであると見なすことにしている。
That is, as shown in FIGS. 11A and 11B, the
図12は、上記X方向におけるID置換処理の流れを示したフローチャートであり、図13は、上記Y方向におけるID置換処理の流れを示したフローチャートである。 FIG. 12 is a flowchart showing the flow of the ID replacement process in the X direction, and FIG. 13 is a flowchart showing the flow of the ID replacement process in the Y direction.
両図において、補間処理部34は、例えば1つの画像データの左上端部を原点と見なして、当該原点からX方向(右方向)及びY方向(下方向)に順に画素データを処理することとしている。また、X方向、Y方向の各画素データの最大座標を、それぞれxmax、ymaxとする。画像データがVGAサイズである場合、X方向に640、Y方向に480の画素データが存在するため、xmax=640、ymax=480となる。
In both figures, the
本実施形態においては、例えばX方向及びY方向において、連続する5つの画素データに着目する。この5つの画素データをd(m)、d(m+1)、d(m+2)、d(m+3)及びd(m+4)とし(m≧0)、各画素データのIDをID(m)、ID(m+1)、ID(m+2)、ID(m+3)及びID(m+4)とした場合、補間処理部34は、前後2つのデータに挟まれた画素データd(m+2)のID(m+2)を置換すべきか否かを判断する。以下、処理の詳細を示す。
In the present embodiment, attention is paid to five consecutive pixel data in the X direction and the Y direction, for example. These five pixel data are d (m), d (m + 1), d (m + 2), d (m + 3), and d (m + 4) (m ≧ 0), and the ID of each pixel data is ID (m), ID ( If m + 1), ID (m + 2), ID (m + 3), and ID (m + 4), should the
図12に示すように、まず、補間処理部34は、1つの画像データ中のY方向の画素データの座標カウンタ値をy=0に初期化する(ステップ121)。続いて、補間処理部34は、画像データ中のX方向の画素データの座標カウンタ値をx=4に初期化する。
As shown in FIG. 12, first, the
続いて、補間処理部34は、上記5つの画素データが、X方向における置換条件を満たすか否かを判断する(ステップ123)。X方向の置換条件は、以下の式で表される。
Subsequently, the
ID((x−4)+y・xmax)=ID((x−3)+y・xmax)=
ID((x−1)+y・xmax)=ID( x +y・xmax)
かつ
ID((x−2)+y・xmax)≠ID( x +y・xmax)
ID ((x−4) + y · xmax) = ID ((x−3) + y · xmax) =
ID ((x-1) + y · xmax) = ID (x + y · xmax)
And ID ((x−2) + y · xmax) ≠ ID (x + y · xmax)
すなわち、5つの画素データのうち、1番目、2番目、4番目及び5番目の各画素データの各IDが全て同一で、かつ、それらが3番目の画素データのIDと異なる、という条件が満たされているか否かが判定される。 That is, among the five pieces of pixel data, the first, second, fourth, and fifth pixel data have the same ID and are different from the third pixel data ID. It is determined whether or not it has been done.
当該置換条件が満たされていると判定された場合には、補間処理部34は、3番目の画素データのIDを他の4つの画素データのIDへ置換する(ステップ124)。置換条件が満たされてないと判定された場合には、補間処理部34は、ID置換処理は実行しない。
If it is determined that the replacement condition is satisfied, the
その後、補間処理部34は、X座標のカウンタ値を1インクリメントして(ステップ125)、当該インクリメントしたX座標がxmaxであるか否かを判断し(ステップ126)、X座標がxmaxでないと判断された場合には(No)、X座標がxmaxとなるまでX座標を右方向へ移動させて、上記ステップ123及びステップ124の処理を繰り返す。
Thereafter, the
X座標がxmaxであると判断された場合には(Yes)、Y座標のカウンタ値を1インクリメントして(ステップ127)、当該インクリメントしたY座標がymaxであるか否かを判断し(ステップ128)、Y座標がymaxでないと判断された場合には(No)、Y座標がymaxとなるまでY座標を下方向へ移動させて、上記ステップ122〜ステップ128の処理を繰り返す。 If it is determined that the X coordinate is xmax (Yes), the counter value of the Y coordinate is incremented by 1 (step 127), and it is determined whether or not the incremented Y coordinate is ymax (step 128). ), When it is determined that the Y coordinate is not ymax (No), the Y coordinate is moved downward until the Y coordinate becomes ymax, and the processing of step 122 to step 128 is repeated.
以上により、画像データを構成する全ての画素データの、X方向についてのID置換処理が終了する。 As described above, the ID replacement process for all the pixel data constituting the image data in the X direction is completed.
図13に示すように、Y方向のについての置換処理も、図12に示したID置換処理と同様に実行することができる。Y方向の置換条件は、以下の式で表される。 As shown in FIG. 13, the replacement process for the Y direction can be executed in the same manner as the ID replacement process shown in FIG. The substitution condition in the Y direction is expressed by the following formula.
ID(x+(y−4)・xmax)=ID(x+(y−3)・xmax)=
ID(x+(y−1)・xmax)=ID(x+ y ・xmax)
かつ
ID(x+(y−2)・xmax)≠ID(x+ y ・xmax)
ID (x + (y−4) · xmax) = ID (x + (y−3) · xmax) =
ID (x + (y-1) .xmax) = ID (x + y.xmax)
And ID (x + (y−2) · xmax) ≠ ID (x + y · xmax)
以上のX方向、Y方向の各置換処理により、画像データ中のノイズ成分が除去される。これにより、初期クラスタリングにより生成されるクラスタ数が削減され、その後の本クラスタリング処理の高速化を図ることができる。 The noise components in the image data are removed by the above replacement processing in the X direction and the Y direction. As a result, the number of clusters generated by the initial clustering is reduced, and the subsequent clustering process can be speeded up.
なお、画像データによっては、ノイズである画素データが、連続的に含まれていたり、例えば1画素データ置きに断続的に含まれていたりする可能性もある。そのような場合には、上述のように両隣を2つずつの画素データに挟まれた1つの画素データのみについてID置換処理を実行していては、ノイズが除去できない可能性がある。しかしながら、本実施形態においては、ID処理部32によるID処理の前に、LPF処理部31がノイズを除去しているため、そのようなノイズも除去することが可能となっている。もちろん、補間処理部34は、上記連続的または断続的なノイズ除去のために、上記図12のステップ123や図13のステップ133のような置換条件を用いてID置換処理を実行しても構わない。
Note that, depending on the image data, pixel data that is noise may be included continuously, or may be included intermittently, for example, every other pixel data. In such a case, as described above, noise may not be removed if the ID replacement process is executed only for one piece of pixel data sandwiched between two pieces of pixel data on both sides as described above. However, in the present embodiment, since the
図14は、上記初期クラスタリング処理により生成されるクラスタ数と、閾値との関係を示したグラフである。
同図に示すように、初期クラスタ数と閾値とは、反比例の関係にある。閾値が大きすぎると、画素データの分類精度が低くなり、閾値が小さすぎると、その後の本クラスタリング処理の収束時間が長くなってしまう。したがって、初期クラスタ数の許容範囲(n1〜n2)は、上記K-meansによる本クラスタリング処理の目標クラスタ数(n0〜n1)の範囲(例えば5〜20クラスタ)に応じて、当該本クラスタリング処理の負担とならず、かつ、分類の効果を得られるような範囲(例えば20〜50クラスタ)に設定され、それに応じて閾値の範囲(Th1〜Th2)も設定される。
FIG. 14 is a graph showing the relationship between the number of clusters generated by the initial clustering process and the threshold value.
As shown in the figure, the initial cluster number and the threshold value are in an inversely proportional relationship. If the threshold is too large, the classification accuracy of the pixel data will be low, and if the threshold is too small, the convergence time of the subsequent clustering process will be long. Therefore, the permissible range (n1 to n2) of the initial number of clusters depends on the range of the target cluster number (n0 to n1) of the main clustering process by the K-means (for example, 5 to 20 clusters). A range (for example, 20 to 50 clusters) that does not cause a burden and can obtain the effect of classification is set, and a threshold range (Th1 to Th2) is also set accordingly.
上記閾値設定部33は、予め閾値を固定せずに、初期クラスタリング処理の結果に応じて、初期クラスタ数が上記許容範囲(n1〜n2)に収まるまで閾値を可変して初期クラスタリング処理を繰り返すことで、閾値の設定許容範囲を学習するようにしても構わない。
The threshold
以上のように、初期クラスタリング処理(ID割り当て処理)により第1の数のクラスタに分類された(クラスタ数を削減された)画素データは、上記ID置換処理を経て、上記K-means処理部35に供給され、本クラスタリング処理により、第1の数よりも少ない第2の数(目標クラスタ数)のクラスタに分類される。
As described above, the pixel data classified into the first number of clusters (reduced number of clusters) by the initial clustering process (ID assignment process) is subjected to the ID replacement process and the K-
そして、セグメンテーション処理部20は、当該本クラスタリング処理による分類されたクラスタ毎に、画像データから上記第2の数の領域を抽出する。すなわち、セグメンテーション処理部20は、画像データを、任意形状の第2の数の領域に分割する。セグメンテーション処理部20は、このセグメンテーション処理を、各映像コンテンツを構成する全ての画像データについて実行し、その結果を上記HDD10やフラッシュメモリ等に記憶する。
Then, the
図15は、以上説明した本実施形態における2段階のクラスタリング処理と、従来のクラスタリング処理とを比較して示した概念図である。同図(A)〜(C)は、上記画素データ(特徴データ)を、特徴ベクトルデータとして、多次元(6次元)の特徴ベクトル空間における当該特徴ベクトルデータの分布を概念的に示している。
従来のクラスタリング処理においては、同図(A)のI個(例えば307,200個)の初期の画素データに、上記K-means等の手法によりクラスタリング処理を施すことで、同図(C)に示すようにK2個(例えば5〜20個)のクラスタに削減している。しかし、このように初期データを直接K-means等の手法により処理すると、クラスタ数が上記K2個に収束するまでに大きな時間を要してしまう。
FIG. 15 is a conceptual diagram showing a comparison between the two-stage clustering process in the present embodiment described above and the conventional clustering process. FIGS. 9A to 9C conceptually show the distribution of feature vector data in a multi-dimensional (six-dimensional) feature vector space using the pixel data (feature data) as feature vector data.
In the conventional clustering processing, clustering processing is performed on the I (for example, 307,200) initial pixel data in FIG. 6A by the method such as K-means as shown in FIG. The number is reduced to K2 (for example, 5 to 20) clusters. However, if the initial data is directly processed by a technique such as K-means in this way, a long time is required until the number of clusters converges to the above K2.
そこで本実施形態においては、同図(B)に示すように、上記ID付与による初期クラスタリング処理により、まずK1個(例えば20〜50個)のクラスタに分類してから、K-meansによる本クラスタリング処理により、同図(C)に示すK1個のクラスタに分類することとしている。 Therefore, in the present embodiment, as shown in FIG. 5B, the initial clustering process using ID assignment first classifies the cluster into K1 (for example, 20 to 50) clusters, and then performs the main clustering using K-means. By processing, it is classified into K1 clusters shown in FIG.
以上説明したように、初期クラスタリング処理によりクラスタ数を削減することで、目標クラスタ数に画素データを分類するまでの時間を大幅に短縮し、記録再生装置100への負荷も軽減することができる。
As described above, by reducing the number of clusters by the initial clustering process, the time until the pixel data is classified into the target number of clusters can be greatly shortened, and the load on the recording / reproducing
次に、以上のようにセグメンテーション処理された画像データを用いた、上記図5のステップ55におけるカメラ特徴の検出処理について説明する。 Next, the camera feature detection process in step 55 of FIG. 5 using the image data segmented as described above will be described.
図16は、画像データ間のカメラ動作と、動きベクトルとの関係を模式的に示した図である。
同図(A)及び(B)に示すように、1つの映像データ中の、時刻tにおける画像F1と、時刻t2における画像F2とから、上記画像セグメンテーション処理により、静止物体である家の領域Aと、動物体である車の領域Bと、背景である領域Cの3つの領域が抽出された場合を想定する。
FIG. 16 is a diagram schematically showing the relationship between camera operations between image data and motion vectors.
As shown in FIGS. 6A and 6B, a region A of a house that is a stationary object is obtained from the image F1 at time t and the image F2 at time t2 in one video data by the image segmentation process. Then, a case is assumed in which three regions of a vehicle region B that is a moving object and a region C that is a background are extracted.
例えば、画像F1から画像F2へ、右方向へパン操作が行われた場合、同図(C)に示すように、当該パン操作を示しているのは、動物体である領域Bの動きベクトルではなく、静止物体である領域A及び領域Cの動きベクトルである。また、一般的に、背景の領域は、動物体の領域よりもその画素数(面積)が大きい。 For example, when a panning operation is performed in the right direction from the image F1 to the image F2, the panning operation is indicated by the motion vector of the region B that is a moving object, as shown in FIG. The motion vectors of the regions A and C, which are still objects, are not. In general, the background area has a larger number of pixels (area) than the area of the moving object.
そこで、映像特徴検出部4は、各抽出領域のうち、最大画素数を有する抽出領域の動きベクトルを、画像データ間における代表的な動きベクトルとして検出し、当該動きベクトルを基にカメラ特徴を判定することとしている。
Therefore, the video
図17は、映像特徴検出部4によるカメラ特徴検出処理の流れを示したフローチャートである。
同図に示すように、まず、映像特徴検出部4は、上記セグメンテーション処理により抽出された抽出領域毎に、1つの映像コンテンツ中の複数の画像データを入力する(ステップ171)。続いて、映像特徴検出部4は、各画像データ毎に、複数の抽出領域の画素数を算出し、最大画素数を有する抽出領域を選択する(ステップ172)。上記図16においては、領域A〜Cの各画素数は、C>A≒Bであるため、領域Cが選択される。
FIG. 17 is a flowchart showing the flow of camera feature detection processing by the video
As shown in the figure, first, the video
続いて、映像特徴検出部4は、複数の画像データの、各選択された抽出領域間でブロックマッチング処理を行い、動きベクトルを検出する(ステップ173)。この処理により、上記図16の場合では、動きベクトルV3のみが検出される。
Subsequently, the video
続いて、映像特徴検出部4は、検出された動きベクトルデータを基に、重回帰分析処理を行い(ステップ174)、パン、チルト、ズームといった各カメラ特徴係数(アフィン係数)を算出する(ステップ175)。
Subsequently, the video
そして、映像特徴検出部4は、選択された抽出領域のカメラ特徴係数を基に、画像データ間のカメラ特徴を判定し、その結果を出力する(ステップ176)。上記図16の場合、算出されたパン係数を基に、パンが行われたことが判定される。
Then, the video
図18は、上記ステップ173における動きベクトル検出処理の詳細を示したフローチャートである。
同図に示すように、映像特徴検出部4は、1つの画像データ(以下、基準フレームと称する)において選択された抽出領域と、当該基準フレームから1フレーム間隔、10フレーム間隔、20フレーム間隔及び30フレーム間隔を置いた各フレームにおいて選択された抽出領域との間で、それぞれブロックマッチング処理を実行し、それぞれ動きベクトルデータを検出する(ステップ181〜184)。各フレーム間隔を置いたフレームは、例えば、フレーム間隔毎のフレームメモリ(図示せず)に保持されており、上記基準フレームとのブロックマッチング処理の度に当該フレームメモリから読み出される。
FIG. 18 is a flowchart showing details of the motion vector detection process in step 173.
As shown in the figure, the video
続いて、映像特徴検出部4は、各フレーム間隔について検出した動きベクトルデータを基に、所定フレーム間隔(例えば40フレーム間隔)置いたフレーム(以下、探索フレームと称する)における動きベクトルデータを推定し(ステップ185)、この推定された動きベクトルデータを最終的な動きベクトルデータとして出力する(ステップ186)。この推定処理は、例えば、各フレーム間隔における動きベクトルデータの勾配を算出し、当該各勾配の平均値に、推定すべきフレーム間隔(例えば40)を乗ずることで実現できる。
Subsequently, the video
そして、映像特徴検出部4は、1つの映像コンテンツを構成する全てのフレームの各選択された抽出領域について動きベクトルデータを出力したか否かを判断し、動きベクトルを検出すべきフレームがなくなるまで上記各ステップの処理を繰り返す(ステップ187)。
Then, the video
次に、上記図17のステップ174における重回帰分析処理によりアフィン係数を算出するためのアフィン変換モデルについて説明する。 Next, an affine transformation model for calculating affine coefficients by the multiple regression analysis process in step 174 of FIG. 17 will be described.
図19は、アフィン変換モデルを示した図である。アフィン変換モデルは、3次元オブジェクトの平行移動、拡大/縮小、回転を、行列を用いた座標変換処理として記述するためのモデルである。上記パン、チルト、ズームといったカメラ特徴は、上記基準フレーム内の物体の平行移動、拡大/縮小であると考えられるため、アフィン変換モデルを用いることで、カメラ特徴を記述することが可能となる。 FIG. 19 is a diagram showing an affine transformation model. The affine transformation model is a model for describing translation, enlargement / reduction, and rotation of a three-dimensional object as coordinate transformation processing using a matrix. Since the camera features such as pan, tilt, and zoom are considered to be parallel movement and enlargement / reduction of an object in the reference frame, it is possible to describe the camera features by using an affine transformation model.
ここで、映像コンテンツにおいて、フレーム間隔が大きくない場合には、回転の特徴については、回転角θが小さいものとして、以下の近似処理を行うことができる。
sinθ≒θ
cosθ≒1
Here, in the video content, when the frame interval is not large, the following approximation process can be performed on the assumption that the rotation angle θ is small for the rotation feature.
sinθ ≒ θ
cos θ ≒ 1
したがって、アフィン変換モデルは、同図に示すように変形することができる。そして、上記検出した動きベクトルから、このアフィン変換モデルを用いて各係数を求めることで、カメラ特徴を検出することができる。すなわち、パン、チルト、ズームの各カメラ特徴について、所定の閾値Pth、Tth及びZthを設定しておき、上記検出された動きベクトルから処理した各アフィン係数と比較することで、各カメラ特徴を検出することができる。 Therefore, the affine transformation model can be modified as shown in FIG. And a camera characteristic can be detected by calculating | requiring each coefficient from this detected motion vector using this affine transformation model. That is, for each camera feature of pan, tilt, and zoom, predetermined threshold values Pth, Tth, and Zth are set, and each camera feature is detected by comparing with each affine coefficient processed from the detected motion vector. can do.
図20は、重回帰分析によりアフィン係数を求める処理を示した図である。同図に示すように、映像特徴検出部4は、説明変数を、基準フレームの抽出領域における検出対象点(Pn)のx、y座標(xn,yn)とし、非説明変数(目的変数)を、上記探索フレームの抽出領域における動きベクトルの検出位置(Pm)のx、y座標(xm,ym)として、重回帰分析処理を行い、パン、チルト、ズームの各係数Px、Py、Zxを求める。
FIG. 20 is a diagram showing processing for obtaining an affine coefficient by multiple regression analysis. As shown in the figure, the video
そして、映像特徴検出部4は、上記各係数Px、Py、Zxと、上記閾値Pth、Tth及びZthとを比較して、各係数が各閾値よりも大きい場合には、各カメラ特徴が検出されたと見なして、当該検出を出力する。
The video
なお、映像特徴検出部4は、パン、チルト、ズームの各カメラを、それぞれ左パン/右パン、左チルト/右チルト、ズームイン/ズームアウトをそれぞれ区別して検出するようにしても構わない。この区別は、アフィン係数の正負の符号を参照することで容易に行うことができる。
Note that the video
以上説明したように、画像セグメンテーションにより抽出された複数の領域のうち、最大画素数(面積)を有する抽出領域を基に画像データ間の動きベクトルを検出することで、動物体の動きに影響されずに、動きベクトルを高精度に検出ができ、より正確なカメラ特徴を検出することができる。 As described above, by detecting a motion vector between image data based on an extraction region having the maximum number of pixels (area) among a plurality of regions extracted by image segmentation, it is influenced by the movement of the moving object. Therefore, the motion vector can be detected with high accuracy, and more accurate camera features can be detected.
記録再生装置100は、この検出されたカメラ特徴を基に、例えばダイジェスト再生(ハイライトシーン再生)等の処理を行う。すなわち、記録再生装置100は、映像コンテンツのうち、各カメラ特徴が検出されたフレームを撮影者が注目しているシーンと見なし、映像コンテンツ中からそのようなフレームを抽出して、ユーザにダイジェスト映像を提供することができる。
The recording / reproducing
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
図21は、本実施形態に係る記録再生装置200の構成を示した図である。本実施形態において、記録再生装置200は、上記画像セグメンテーション処理によって抽出された領域毎に、複数の画像データ間で類似性を判断することで、画像検索処理を実行することができる。
FIG. 21 is a diagram showing a configuration of the recording / reproducing
同図に示すように、記録再生装置200は、上記第1の実施形態の図1で示した記録再生装置100の映像特徴検出部4に代えて、画像検索部30を有する。その他の各部については、上記第1実施形態における記録再生装置100と同様であるため、説明を省略する。
As shown in the figure, the recording / reproducing
図22は、本実施形態に係る記録再生装置200の動作の流れを示したフローチャートである。
同図に示すように、記録再生装置200は、上記セグメンテーション処理部20により、入力された複数の画像データの各画素データについて、初期クラスタリング処理、本クラスタリング処理、領域抽出処理を実行する(ステップ221〜224)。これらの各処理については、上記第1の実施形態と同様であるため、説明を省略する。続いて、記録再生装置200は、上記画像検索部30により、画像検索処理を実行する(ステップ225)。
FIG. 22 is a flowchart showing a flow of operations of the recording / reproducing
As shown in the figure, in the recording / reproducing
図23は、上記画像検索処理の詳細な流れを示したフローチャートである。また、図24は、当該画像検索処理を概念的に示した図である。
両図に示すように、まず、画像検索部30は、上記セグメンテーション処理により抽出された抽出領域の画素数を算出し、最大画素数を有する抽出領域を選択する(ステップ231)。
FIG. 23 is a flowchart showing a detailed flow of the image search process. FIG. 24 is a diagram conceptually showing the image search process.
As shown in both figures, first, the
続いて、画像検索部30は、選択された抽出領域の各特徴ベクトルを生成する(ステップ232)。すなわち、画像検索部30は、図24に示すように、各画像データを構成する画素データの3次元の色特徴データ(cn=(dnr,dng,dnb))と、3次元のテクスチャ特徴データ(tn=(dnl,dnlh,dnhl))を基に、6次元の特徴ベクトルデータVn=(dnll,dnlh,dnhl,dnll,dnlh,dnhl)を作成する。
Subsequently, the
続いて、画像検索部30は、上記生成された特徴ベクトルデータのうち、1つの画像データ(基準画像)の特徴ベクトルデータを検索キーとして、基準画像の特徴ベクトルデータと、他の画像データ(探索画像)の特徴ベクトルデータとの間でベクトル間距離演算を実行することで、基準画像と探索画像との類似性を判断する(ステップ233)。
Subsequently, the
そして、画像検索部30は、上記判断結果を、画像検索結果として出力する(ステップ234)。例えば、画像検索部30は、上記ベクトル間距離に所定の閾値を設けておき、基準画像の特徴ベクトルと探索画像の特徴ベクトルとのベクトル間距離が当該閾値以内であれば、当該探索画像を類似画像として出力する。
Then, the
以上説明したように、本実施形態においては、上記高速化された画像セグメンテーション処理により抽出された領域の特徴ベクトルデータを用いて画像検索処理を実行することで、特徴ベクトル生成処理の高速化を図ることができ、その結果、画像検索処理の高速化を図ることができる。 As described above, in the present embodiment, the speed of the feature vector generation process is increased by executing the image search process using the feature vector data of the region extracted by the accelerated image segmentation process. As a result, the image search process can be speeded up.
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described.
本実施形態において、記録再生装置は、上記画像セグメンテーション処理による領域抽出結果を、映像データのエンコード処理におけるオブジェクト符号化処理に応用している。 In the present embodiment, the recording / reproducing apparatus applies the region extraction result by the image segmentation process to the object encoding process in the video data encoding process.
図25は、本実施形態に係る記録再生装置300の構成を示した図である。
同図に示すように、記録再生装置200は、上記第1及び第2の実施形態で示した記録再生装置100及び200と比較して、映像特徴検出部4及び画像検索部40が廃されている。また、記録再生装置100及び200のAVデコーダ16に代えて、映像データのMPEG形式でのエンコード及びデコードが可能なAVコーデック251が設けられている。このAVコーデック251が、上記オブジェクト符号化処理を担う。その他の各部については、上記第1実施形態における記録再生装置100と同様であるため、説明を省略する。
FIG. 25 is a diagram showing a configuration of the recording / reproducing apparatus 300 according to the present embodiment.
As shown in the figure, the recording / reproducing
図26は、本実施形態におけるオブジェクト符号化処理の流れを示したフローチャートである。
同図に示すように、記録再生装置100は、上記セグメンテーション処理部20により、入力された複数の画像データの各画素データについて、初期クラスタリング処理、本クラスタリング処理、領域抽出処理を実行する(ステップ261〜264)。これらの各処理については、上記第1及び第2の実施形態と同様であるため、説明を省略する。続いて、記録再生装置100は、上記AVコーデック251により、映像データのエンコード処理を実行する(ステップ265)。
FIG. 26 is a flowchart showing the flow of object encoding processing in the present embodiment.
As shown in the figure, in the recording / reproducing
図27は、上記ステップ265におけるエンコード処理の流れを示したフローチャートである。
同図に示すように、AVコーデック251は、上記画像セグメンテーション処理により抽出された領域毎に映像データを入力する(ステップ271)。
FIG. 27 is a flowchart showing the flow of the encoding process in step 265.
As shown in the figure, the
続いて、AVコーデック251は、上記抽出領域毎に動き予測を行う(ステップ272)。具体的には、AVコーデック251は、入力された映像データの各画像データ(フレーム)と、フレームメモリに格納されている予測用の参照画像データとから、上記抽出領域毎に動きベクトルを検出する。次に、AVコーデック251は、当該動きベクトルにより当該予測用参照画像データを動き補償して、予測画像を生成する。さらに、AVコーデック251は、入力画像と予測画像との差分を、上記抽出領域毎に算出する。
Subsequently, the
続いて、AVコーデック251は、上記抽出領域毎の差分データに、DCT変換(離散コサイン変換)処理を施し(ステップ273)、さらに当該DCT変換後の差分データを量子化する(ステップ274)。
Subsequently, the
続いて、AVコーデック251は、量子化後の抽出領域毎の差分データに、可変長符号化(VLC)により2次元ハフマン符号を割り当て、また上記抽出領域毎に検出された動きベクトルデータにも2次元ハフマン符号を割り当てる(ステップ275)。
Subsequently, the
そして、AVコーデック251は、ハフマン符号を割り当てられた差分データ及び動きベクトルデータを多重化して、符号化データとして出力する(ステップ276)。
Then, the
以上説明したように、本実施形態においては、上記高速化された画像セグメンテーション処理により抽出された領域を、オブジェクト符号化処理に利用することで、映像エンコード処理の高速化を図ることができる。 As described above, in the present embodiment, the speed of the video encoding process can be increased by using the region extracted by the accelerated image segmentation process for the object encoding process.
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the present invention.
上記第1の実施形態において、映像特徴検出部4は、最大画素数(面積)を有する抽出領域のみの動きベクトルを検出していた。しかし、映像特徴検出部4は、複数の抽出領域の動きベクトルをそれぞれ検出し、各動きベクトルのうち、最も多く検出された動きベクトルを画像データ全体間における動きベクトルとして検出してもよい。
In the first embodiment, the video
また、映像特徴検出部4は、複数の抽出領域の動きベクトルをそれぞれ検出し、各動きベクトルに抽出領域の画素数(面積)に応じた重みを付与して、画像データ全体としての動きベクトルを検出してもよい。すなわち、映像特徴検出部4は、抽出領域の画素数が大きい程高く重み付けが可能な評価関数を用いて、各抽出領域の動きベクトルデータを重み付けすることで、画像データ全体としての動きベクトルの評価値を算出しても構わない。これにより、全ての抽出領域の画素数を反映したより正確な動きベクトル検出が可能となる。
In addition, the video
さらに、映像特徴検出部4は、複数の抽出領域のうち、画素数(面積)が最小となる抽出領域間の動きベクトルを画像データ全体としての動きベクトルとしても構わない。これにより、動物体に着目した動きベクトル検出が可能となる。
Further, the video
上記第1の実施形態において、映像特徴検出部4は、上記画像セグメンテーション処理及び動きベクトル検出処理により、カメラ特徴を検出していた。しかし、映像特徴検出部4は、この画像セグメンテーション処理及び動きベクトル検出処理を、例えば動物体を検出する処理にも応用することができる。
In the first embodiment, the video
すなわち、映像特徴検出部4は、上記画像セグメンテーション処理及び抽出領域毎の動きベクトル検出処理により、画像データ内の物体が動いているのか、静止しているのかを判定することで、動物体が含まれる画像データ(フレーム)を抽出することができる。
That is, the video
例えば、映像特徴検出部4は、領域の占める割合が大きく、かつ、動いている物体が含まれるフレームを抽出して、そのフレーム区間をダイジェスト再生させることができる。大きい領域は、撮影者がズーム等により注目している領域、動いている領域は、アクティブな領域としてそれぞれ捉えることができるからである。
For example, the video
上記第2の実施形態においては、画像検索部30は、最大画素数(面積)を有する抽出領域のみの画素データ(特徴データ)から特徴ベクトルデータを生成していた。しかし、画像検索部30は、複数の抽出領域の画素データから、それぞれ特徴ベクトルデータを生成し、各特徴ベクトルのベクトル間距離演算結果に、抽出領域の画素数(面積)に応じた重みを付与して、両画像の類似性を判断しても構わない。すなわち、画像検索部30は、基準画像と探索画像との間での抽出領域毎のベクトル間距離演算を行い、その演算結果を、抽出領域の画素数が大きい程高く重み付けが可能な評価関数を用いて重み付けして類似性の評価値を算出しても構わない。
In the second embodiment, the
上記第1乃至第3の実施形態において、セグメンテーション処理部20は、AVデコーダ16(またはAVコーデック251)によるデコード後のベースバンド信号から色特徴及びテクスチャ特徴を抽出していた。しかし、セグメンテーション処理部20は、デコード前の画像データから色特徴及びテクスチャ特徴を抽出しても構わない。この場合、セグメンテーション処理部20は、DCT係数のDC係数を基に各特徴を抽出可能である。
In the first to third embodiments, the
上記第1乃至第3の実施形態において、セグメンテーション処理部20は、ID付与による初期クラスタリング処理と、K-meansによる本クラスタリング処理の2段階のクラスタリング処理を実行していた。しかし、セグメンテーション処理部20は、上記K-means処理部35を廃して、本クラスタリング処理を行わずに、初期クラスタリング処理のみで画像セグメンテーション処理を終了してもよい。また、セグメンテーション処理部20は、K-means処理部35を有する場合でも、初期クラスタリング処理により目標クラスタ数のクラスタに画素データを分類できた場合には、本クラスタリング処理を行わずに、その時点で画像セグメンテーション処理を終了しても構わない。
In the first to third embodiments, the
上記第1乃至第2の実施形態において、記録再生装置は、本クラスタリング処理のクラスタリング手法として、K-meansを用いていた。しかし、クラスタリング手法としては、ファジィc-means、エントロピー法、ウォード法、SOM等、他の手法が用いられても構わない。 In the first and second embodiments, the recording / reproducing apparatus uses K-means as the clustering method of the clustering process. However, as the clustering method, other methods such as fuzzy c-means, entropy method, Ward method, SOM, etc. may be used.
上記第1乃至第3の実施形態においては、本発明を記録再生装置に適用した例を示した。しかし、本発明は、PC、サーバ装置、テレビジョン装置、ゲーム機器、デジタルカメラ、デジタルビデオカメラ、携帯電話機等のその他の各種電子機器にも同様に適用することができる。 In the first to third embodiments, an example in which the present invention is applied to a recording / reproducing apparatus has been described. However, the present invention can be similarly applied to other various electronic devices such as a PC, a server device, a television device, a game device, a digital camera, a digital video camera, and a mobile phone.
1…CPU
4…映像特徴検出部
10…HDD
20…セグメンテーション処理部
30…画像検索部
31…LPF処理部
32…ID処理部
33…閾値設定部
34…補間処理部
35…K-means処理部
40…画像検索部
41…データメモリ部
42…比較判定部
44…IDメモリ部
45…最大ID値メモリ部
46…アドレスカウンタ部
100、200、300…記録再生装置
251…AVコーデック
1 ... CPU
4 ... Video
DESCRIPTION OF
Claims (14)
前記入力される各画素データの所定の特徴値が、既入力の画素データの前記特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類する
情報処理方法。 A plurality of pixel data constituting image data are sequentially input,
It is determined for each input whether a predetermined feature value of each input pixel data is within a predetermined range value from the feature value of already input pixel data, and the feature value is the predetermined range value. The first identification information that is the same as the already input pixel data is assigned to the pixel data that is determined to be within, and the pixel data that is determined not to be within the predetermined range value is added to the first pixel data. An information processing method for classifying the plurality of pieces of pixel data into a first number of clusters by assigning second identification information different from the identification information.
前記分類により同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された複数の画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類する
情報処理方法。 The information processing method according to claim 1, further comprising:
The pixel data classified into the same cluster by the classification is regarded as pixel data having the same feature value, and the second plurality of classified pixel data is less than the first number by a predetermined clustering method. An information processing method that classifies a number of clusters.
前記第1の数のクラスタに分類された複数の画素データのうち、所定方向上に存在する連続した複数の第1の画素データと、前記所定方向上に存在し前記第1の画素データとは異なる連続した複数の第2の画素データと、前記所定方向上に前記第1の画素データと前記第2の画素データとの間に存在する少なくとも1つの第3の画素データとを抽出し、
前記第1の画素データと前記第2の画素データの前記識別情報が同一であり、前記第3の画素データの前記識別情報が前記第1及び第2の画素データとは異なる場合に、前記第3の画素データの識別情報を、前記第1及び第2の画素データの識別情報へ置換する
情報処理方法。 The information processing method according to claim 2, further comprising:
Among a plurality of pieces of pixel data classified into the first number of clusters, a plurality of continuous first pixel data existing in a predetermined direction and the first pixel data existing in the predetermined direction are A plurality of different continuous second pixel data and at least one third pixel data existing between the first pixel data and the second pixel data in the predetermined direction;
When the identification information of the first pixel data and the second pixel data is the same, and the identification information of the third pixel data is different from the first and second pixel data, the first pixel data and the second pixel data are different from each other. 3. An information processing method for replacing the identification information of the third pixel data with the identification information of the first and second pixel data.
前記入力された各画素データ中の高周波成分をローパスフィルタにより除去する
情報処理方法。 The information processing method according to claim 3, further comprising:
An information processing method for removing high-frequency components in the input pixel data by a low-pass filter.
前記第2の数のクラスタに分類された複数の画素データを基に、前記画像データを任意形状の前記第2の数の領域に分割する
情報処理方法。 The information processing method according to claim 3, further comprising:
An information processing method for dividing the image data into the second number of regions having an arbitrary shape based on a plurality of pixel data classified into the second number of clusters.
前記分割された第2の数の領域毎に、複数の前記画像データ間で動きベクトルを検出し、
前記検出された動きベクトルを基に、複数の前記画像データで構成される映像データ中の、カメラ動作により生じる所定の映像特徴を検出する
情報処理方法。 The information processing method according to claim 5, further comprising:
Detecting a motion vector between a plurality of the image data for each of the divided second number of regions;
An information processing method for detecting a predetermined video feature generated by a camera operation in video data composed of a plurality of the image data based on the detected motion vector.
前記映像特徴を検出するステップは、
前記複数の画像データの前記第2の数の領域の画素数をそれぞれ算出し、
前記複数の画像データ中の、前記画素数が最も大きい領域間で検出された動きベクトルを基に前記映像データ中の前記所定の映像特徴を検出する
情報処理方法。 An information processing method according to claim 6,
Detecting the video feature comprises:
Calculating the number of pixels of the second number of regions of the plurality of image data,
An information processing method for detecting the predetermined video feature in the video data based on a motion vector detected between regions having the largest number of pixels in the plurality of image data.
前記分割された第2の数の領域毎に、前記画素データを符号化する
情報処理方法。 The information processing method according to claim 5, further comprising:
An information processing method for encoding the pixel data for each of the divided second number of regions.
前記分割された第2の数の領域毎に特徴ベクトルを生成し、
複数の前記画像データ間で、前記第2の数のクラスタ毎に前記生成された特徴ベクトルを比較して、前記複数の画像データ間の類似性を判断する
情報処理方法。 The information processing method according to claim 3, further comprising:
Generating a feature vector for each of the divided second number of regions;
An information processing method that compares the generated feature vectors for each of the second number of clusters among a plurality of the image data to determine similarity between the plurality of image data.
前記類似性を判断するステップは、
前記複数の画像データの前記第2の数の領域の画素数をそれぞれ算出し、
前記複数の画素データ間で、前記画素数が最も大きい領域間で前記特徴ベクトルを比較して前記複数の画像データ間の類似性を判断する
情報処理方法。 An information processing method according to claim 9,
The step of determining the similarity includes:
Calculating the number of pixels of the second number of regions of the plurality of image data,
An information processing method for determining similarity between the plurality of image data by comparing the feature vectors between regions having the largest number of pixels among the plurality of pixel data.
前記第1の数のクラスタに分類するステップは、前記第1の数が所定数となるまで前記所定範囲値を可変して前記分類を繰り返す
情報処理方法。 An information processing method according to claim 3,
The step of classifying into the first number of clusters repeats the classification by changing the predetermined range value until the first number reaches a predetermined number.
前記第1の数のクラスタに分類するステップは、前記第1の数が所定数となった場合には、前記第2の数のクラスタへの分類を実行しないよう制御する
情報処理方法。 An information processing method according to claim 3,
The step of classifying into the first number of clusters performs control so as not to execute the classification into the second number of clusters when the first number reaches a predetermined number.
前記入力される各画素データの特徴値が、既入力の画素データの特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類する第1の分類手段と、
同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類する第2の分類手段と
を具備する情報処理装置。 Input means for sequentially inputting a plurality of pixel data constituting image data;
It is determined for each input whether the feature value of each input pixel data is within a predetermined range value from the feature value of the already input pixel data, and the feature value is within the predetermined range value. The first identification information that is the same as the already input pixel data is assigned to the pixel data determined to be, and the first identification information is determined to be the pixel data determined that the feature value is not within the predetermined range value. First classification means for classifying the plurality of pieces of pixel data into a first number of clusters by giving second identification information different from
The pixel data classified into the same cluster is regarded as pixel data having the same feature value, and the classified pixel data is classified into a second number of clusters smaller than the first number by a predetermined clustering method. An information processing apparatus comprising: a second classification unit.
画像データを構成する複数の画素データを逐次入力するステップと、
前記入力される各画素データの所定の特徴値が、既入力の画素データの前記特徴値から所定範囲値内であるか否かを、前記入力毎に判定し、前記特徴値が前記所定範囲値内であると判定された画素データに、前記既入力の画素データと同一の第1の識別情報を付与し、前記特徴値が前記所定範囲値内でないと判定された画素データに、前記第1の識別情報と異なる第2の識別情報を付与して、前記複数の画素データを第1の数のクラスタに分類するステップと、
同一のクラスタに分類された前記画素データを同一の特徴値を有する画素データと見なして、前記分類された画素データを所定のクラスタリング手法により前記第1の数より少ない第2の数のクラスタに分類するステップと
を実行させるためのプログラム。 In the information processing device,
Sequentially inputting a plurality of pixel data constituting the image data;
It is determined for each input whether a predetermined feature value of each input pixel data is within a predetermined range value from the feature value of already input pixel data, and the feature value is the predetermined range value. The first identification information that is the same as the already input pixel data is assigned to the pixel data that is determined to be within, and the pixel data that is determined not to be within the predetermined range value is added to the first pixel data. Classifying the plurality of pixel data into a first number of clusters, giving second identification information different from the identification information of
The pixel data classified into the same cluster is regarded as pixel data having the same feature value, and the classified pixel data is classified into a second number of clusters smaller than the first number by a predetermined clustering method. A program for executing the steps to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051154A JP2009212605A (en) | 2008-02-29 | 2008-02-29 | Information processing method, information processor, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051154A JP2009212605A (en) | 2008-02-29 | 2008-02-29 | Information processing method, information processor, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009212605A true JP2009212605A (en) | 2009-09-17 |
Family
ID=41185370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008051154A Pending JP2009212605A (en) | 2008-02-29 | 2008-02-29 | Information processing method, information processor, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009212605A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012227645A (en) * | 2011-04-18 | 2012-11-15 | Nikon Corp | Image processing program, image processing method, image processor, and imaging apparatus |
JP2013210108A (en) * | 2012-03-30 | 2013-10-10 | Osaka Prefecture Univ | Device for detecting combustion state in incinerator, and combustion controller |
US8988534B2 (en) | 2012-01-11 | 2015-03-24 | Samsung Techwin Co., Ltd. | Characterizing point checking region setting apparatus and method, and image stabilizing apparatus including the same |
JP2016140063A (en) * | 2015-01-28 | 2016-08-04 | 財團法人工業技術研究院Industrial Technology Research Institute | Encoding method and encoder |
JP2016157197A (en) * | 2015-02-23 | 2016-09-01 | 株式会社リコー | Self-position estimation device, self-position estimation method, and program |
JP2018503906A (en) * | 2014-12-30 | 2018-02-08 | ベンタナ メディカル システムズ, インコーポレイテッド | System and method for co-expression analysis in immunoscore calculation |
JP7460949B2 (en) | 2020-03-11 | 2024-04-03 | 公立大学法人会津大学 | Category identification program, category identification device, and category identification method |
-
2008
- 2008-02-29 JP JP2008051154A patent/JP2009212605A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012227645A (en) * | 2011-04-18 | 2012-11-15 | Nikon Corp | Image processing program, image processing method, image processor, and imaging apparatus |
US8988534B2 (en) | 2012-01-11 | 2015-03-24 | Samsung Techwin Co., Ltd. | Characterizing point checking region setting apparatus and method, and image stabilizing apparatus including the same |
JP2013210108A (en) * | 2012-03-30 | 2013-10-10 | Osaka Prefecture Univ | Device for detecting combustion state in incinerator, and combustion controller |
JP2018503906A (en) * | 2014-12-30 | 2018-02-08 | ベンタナ メディカル システムズ, インコーポレイテッド | System and method for co-expression analysis in immunoscore calculation |
JP7092503B2 (en) | 2014-12-30 | 2022-06-28 | ベンタナ メディカル システムズ, インコーポレイテッド | Systems and methods for co-expression analysis |
JP2016140063A (en) * | 2015-01-28 | 2016-08-04 | 財團法人工業技術研究院Industrial Technology Research Institute | Encoding method and encoder |
JP2016157197A (en) * | 2015-02-23 | 2016-09-01 | 株式会社リコー | Self-position estimation device, self-position estimation method, and program |
JP7460949B2 (en) | 2020-03-11 | 2024-04-03 | 公立大学法人会津大学 | Category identification program, category identification device, and category identification method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200329233A1 (en) | Hyperdata Compression: Accelerating Encoding for Improved Communication, Distribution & Delivery of Personalized Content | |
US8184947B2 (en) | Electronic apparatus, content categorizing method, and program therefor | |
US20150117540A1 (en) | Coding apparatus, decoding apparatus, coding data, coding method, decoding method, and program | |
WO2005084036A1 (en) | Motion vector detecting apparatus, motion vector detecting method, and computer program | |
JP2009212605A (en) | Information processing method, information processor, and program | |
JP2001086507A (en) | Image coder, image coding method, image decoder, image decoding method, medium and image processor | |
JP2008518331A (en) | Understanding video content through real-time video motion analysis | |
US20130034160A1 (en) | Apparatus and method for video processing | |
JP5163429B2 (en) | Motion vector detection apparatus, processing method thereof, and program | |
US8363726B2 (en) | Electronic apparatus, motion vector detecting method, and program therefor | |
JP4687834B2 (en) | Video descriptor generator | |
US20110019741A1 (en) | Image processing system | |
CN106664404A (en) | Block segmentation mode processing method in video coding and relevant apparatus | |
CN1886759A (en) | Detection of local visual space-time details in a video signal | |
JP5644505B2 (en) | Collation weight information extraction device | |
JP4617883B2 (en) | Image processing apparatus and method, program, and recording medium | |
JP2012108689A (en) | Character region detecting apparatus and program thereof | |
JP2010114596A (en) | Motion vector detection apparatus, motion vector processing method and program | |
JP5801614B2 (en) | Image processing apparatus and image processing method | |
Jacobson et al. | Scale-aware saliency for application to frame rate upconversion | |
Wang et al. | Deep intensity guidance based compression artifacts reduction for depth map | |
JPWO2019135270A1 (en) | Video analysis device, video analysis system, video analysis method, and program | |
JP2007067552A (en) | Method, apparatus and program for inter-layer prediction processing and recording medium thereof | |
US20090268822A1 (en) | Motion vector detection by stepwise search | |
JP2022546774A (en) | Interpolation filtering method and device, computer program and electronic device for intra prediction |