JP2015109024A - Image dictionary generation device, image dictionary generation method and computer program - Google Patents
Image dictionary generation device, image dictionary generation method and computer program Download PDFInfo
- Publication number
- JP2015109024A JP2015109024A JP2013252201A JP2013252201A JP2015109024A JP 2015109024 A JP2015109024 A JP 2015109024A JP 2013252201 A JP2013252201 A JP 2013252201A JP 2013252201 A JP2013252201 A JP 2013252201A JP 2015109024 A JP2015109024 A JP 2015109024A
- Authority
- JP
- Japan
- Prior art keywords
- image
- representative information
- learning
- unit
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像辞書を生成する技術に関する。 The present invention relates to a technique for generating an image dictionary.
従来の画像辞書生成方法として次のような方法がある。
まず、画像辞書の対象となる全ての意味ラベルに関する学習画像群から複数のトピックモデルが求められる。次に、個々の学習画像とトピックモデルとの類似度が算出される。次に、類似度の高い順で学習画像が複数のトピックに対応付けられる。次に、ある意味ラベルに関する画像辞書を構築するときに、各トピックに属する学習画像群から、その意味ラベルに付与された学習画像が収集される。次に、機械学習手法を用いてトピック毎の識別モデルが構築される。そして、トピック毎の識別モデルを合わせることによって、その意味ラベルの画像辞書が生成される(非特許文献1参照)。
There are the following methods as a conventional image dictionary generation method.
First, a plurality of topic models are obtained from learning image groups related to all semantic labels that are targets of the image dictionary. Next, the similarity between each learning image and the topic model is calculated. Next, learning images are associated with a plurality of topics in descending order of similarity. Next, when an image dictionary related to a certain meaning label is constructed, learning images assigned to the meaning label are collected from the learning image group belonging to each topic. Next, an identification model for each topic is constructed using a machine learning technique. And the image dictionary of the meaning label is produced | generated by matching the identification model for every topic (refer nonpatent literature 1).
しがしながら、上記の非特許文献1に示す画像辞書生成方法には、以下の問題がある。
意味ラベルが、画像における複数の要素(トピック)の組み合わせで構成されることがある。例えば、“ビーチ”という意味ラベルは、“海”、“太陽”、“砂”、“人”などの複数のトピックの組み合わせで構成される。その結果、複数のトピックを用いて画像の内容を再構成することが必要である。トピックが多数存在する場合、一部のトピックのみが用いられてしまうと、学習画像群(全局情報)の情報の利用が不十分となってしまう。そのため、画像辞書の精度が低くなるという問題がある。
However, the image dictionary generation method shown in Non-Patent
A semantic label may be composed of a combination of a plurality of elements (topics) in an image. For example, the meaning label “beach” is composed of a combination of a plurality of topics such as “sea”, “sun”, “sand”, and “people”. As a result, it is necessary to reconstruct the image content using multiple topics. When there are many topics, if only some topics are used, the use of information in the learning image group (all station information) becomes insufficient. Therefore, there is a problem that the accuracy of the image dictionary is lowered.
また、画像の平均特徴ベクトルでトピックを表現する従来技術では、画像辞書の表現力が充分ではない。そのため、結果として意味ラベル付与の精度が低くなるという問題があった。 In addition, in the conventional technique for expressing a topic with an average feature vector of an image, the image dictionary has insufficient expression power. As a result, there has been a problem that the accuracy of meaning labeling is lowered.
また、画像の意味が複数のトピックで構成される場合、各トピックの貢献度が異なることがある。例えば、“ビーチ”という画像の意味は、複数のトピック“海”、“太陽”、“砂”、“人”の組み合わせで表現される。しかし、“海”が大きく映され、“人”が小さく映される一枚の“ビーチ”の画像では、トピック“海”とトピック“人”とでは貢献度が異なる。このようなトピック毎の貢献度が処理に反映されていなかったため、意味ラベル付与の精度が低くなるという問題がある。 In addition, when the meaning of an image is composed of a plurality of topics, the contribution degree of each topic may be different. For example, the meaning of the image “beach” is expressed by a combination of a plurality of topics “sea”, “sun”, “sand”, and “people”. However, in a single “beach” image in which “sea” is projected large and “people” is projected small, the topic “sea” and topic “people” have different degrees of contribution. Since the degree of contribution for each topic is not reflected in the process, there is a problem that the accuracy of meaning label assignment is lowered.
上記事情に鑑み、本発明は、画像辞書の精度を向上させることを可能とする技術の提供を目的としている。 In view of the above circumstances, an object of the present invention is to provide a technique that can improve the accuracy of an image dictionary.
本発明の一態様は、ある意味ラベルに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記意味ラベルに対応付けられた複数の学習画像の特徴を示す全局代表情報を抽出する全局代表情報抽出部と、前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいて局所代表情報を抽出する局所代表情報抽出部と、前記全局代表情報及び前記局所代表情報に基づいて、前記学習画像と前記クラスタとを対応付ける学習画像対応付け部と、前記クラスタと複数の学習画像との対応付けに基づいて、各クラスタの識別器を生成し、前記識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成部と、を備える画像辞書生成装置である。 According to one aspect of the present invention, a feature amount extraction unit that extracts a feature amount for a plurality of learning images associated with a semantic label, and a plurality of learning images associated with the semantic label based on the feature amount An all-station representative information extracting unit that extracts all-station representative information indicating the features of the local area, and a local representative information extracting unit that clusters the feature amounts and extracts local representative information based on the feature amounts included in the clusters for each cluster; A learning image associating unit for associating the learning image with the cluster based on the all-station representative information and the local representative information, and a classifier for each cluster based on the association between the cluster and a plurality of learning images. And an image dictionary generation unit that acquires the combination of the discriminators as an image dictionary of the semantic labels.
本発明の一態様は、上記の画像辞書生成装置であって、前記学習画像対応付け部は、前記全局代表情報及び前記局所代表情報に基づいて各学習画像と前記クラスタとの再構成誤差を算出し、前記再構成誤差が小さい順に前記学習画像と前記クラスタとを対応付ける。 One aspect of the present invention is the image dictionary generation device described above, wherein the learning image association unit calculates a reconstruction error between each learning image and the cluster based on the all-station representative information and the local representative information. Then, the learning image is associated with the cluster in ascending order of the reconstruction error.
本発明の一態様は、ある意味ラベルに対応付けられた複数の学習画像について特徴量を抽出する特徴量抽出ステップと、前記特徴量に基づいて、前記意味ラベルに対応付けられた複数の学習画像の特徴を示す全局代表情報を抽出する全局代表情報抽出ステップと、前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいて局所代表情報を抽出する局所代表情報抽出ステップと、前記全局代表情報及び前記局所代表情報に基づいて、前記学習画像と前記クラスタとを対応付ける学習画像対応付けステップと、前記クラスタと複数の学習画像との対応付けに基づいて、各クラスタの識別器を生成し、前記識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成ステップと、を有する画像辞書生成方法である。 According to one aspect of the present invention, a feature amount extracting step of extracting a feature amount for a plurality of learning images associated with a certain meaning label, and a plurality of learning images associated with the meaning label based on the feature amount All-station representative information extracting step for extracting all-station representative information indicating the characteristics of the above; and local representative information extracting step for clustering the feature amounts and extracting local representative information based on the feature amounts included in the clusters for each cluster; A learning image associating step for associating the learning image with the cluster based on the all-station representative information and the local representative information, and an identifier for each cluster based on the association between the cluster and a plurality of learning images. And an image dictionary generating step for acquiring a combination of the discriminators as an image dictionary of the semantic labels. It is a generation method.
本発明の一態様は、上記の画像辞書生成装置としてコンピュータを動作させるためのコンピュータプログラムである。 One aspect of the present invention is a computer program for causing a computer to operate as the image dictionary generation apparatus.
本発明により、画像辞書の精度を向上させることが可能となる。 According to the present invention, it is possible to improve the accuracy of the image dictionary.
本発明における画像辞書生成装置の一実施例の詳細について説明する。
図1は、画像辞書生成装置10の構成を示す概略ブロック図である。画像辞書生成装置10は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、画像辞書生成プログラムを実行する。画像辞書生成装置10は、画像辞書生成プログラムの実行によって、蓄積部1、学習画像群収集部2、特徴量抽出部3、代表情報抽出部4、学習画像対応付け部5及び画像辞書生成部6を備える装置として機能する。なお、画像辞書生成装置10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。画像辞書生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
The details of an embodiment of the image dictionary generating apparatus according to the present invention will be described.
FIG. 1 is a schematic block diagram showing the configuration of the image
蓄積部1は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。蓄積部1は、事前に用意された学習画像を意味ラベル毎に蓄積する。学習画像と意味ラベルとの対応付けは、どのような処理によって行われても良い。例えば、人の手によって意味ラベルに学習画像が対応付けされても良い。例えば、Web上に存在する画像及びタグを、対応付けられた学習画像及び意味ラベルとして取得しても良い。蓄積部1は、学習画像群収集部2から意味ラベルの指定を受けると、指定された意味ラベルに対応付けられた複数の学習画像を学習画像群収集部2に対して出力する。
The
学習画像群収集部2は、蓄積部1に対して意味ラベルの指定を出力することによって、指定された意味ラベルに対応付けられた複数の学習画像を受け取る。学習画像群収集部2は、受け取った複数の学習画像(以下、「学習画像群」という。)を特徴量抽出部3へ出力する。学習画像群には、各学習画像の意味ラベルに関する情報(以下、「意味ラベル情報」という。)も含まれる。
The learning image
特徴量抽出部3は、学習画像群収集部2から意味ラベルに関する学習画像群を受け取る。特徴量抽出部3は、受け取った学習画像群に含まれる個々の学習画像について、特徴量を抽出する。特徴量抽出部3は、例えば、色ヒストグラムや模様ヒストグラムなどの特徴量(物理特徴量)を抽出しても良い。特徴量抽出部3は、学習画像を分割し、各領域から特徴量を抽出しても良い。特徴量抽出部3は、学習画像からSIFT特徴点を抽出し、SIFTなどの局所特徴量を抽出しても良い。特徴量抽出部3は、抽出された特徴量を局所代表情報抽出部42へ出力する。
The feature
代表情報抽出部4は、代表情報を抽出する。代表情報抽出部4は、全局代表情報抽出部41と、局所代表情報抽出部42と、を備える。
The representative information extraction unit 4 extracts representative information. The representative information extraction unit 4 includes an all-station representative
全局代表情報抽出部41は、特徴量抽出部3から抽出された学習画像群の特徴量を受け取る。全局代表情報抽出部41は、受け取った特徴量に基づいて、全局代表情報を抽出する。全局代表情報は、一つの意味ラベルに対応付けられた学習画像群の全体の情報を簡潔且つ精度よく表す情報である。例えば、全局代表情報抽出部41は、学習画像群の画像の全てのSIFT特徴点における局所特徴量に基づき、全局代表情報を抽出してもよい。例えば、この処理にはsparse representation手法が適用されてもよい。sparse representation手法には、以下に示す参考文献1に開示された技術が適用されてもよい。
参考文献1:http://www.stanford.edu/class/cs294a/sparseAutoencoder_2011new.pdf
The all-station representative
Reference 1: http://www.stanford.edu/class/cs294a/sparseAutoencoder_2011new.pdf
この手法により求められた基底DS(複数の特徴量で構成される行列N×M,Nは特徴量の次元数,M>N)が全局代表情報である。全局代表情報抽出部41は、抽出した全局代表情報を蓄積部1に格納する。また、全局代表情報抽出部41は、抽出した全局代表情報を学習画像対応付け部5に出力する。
The base D S (matrix N × M composed of a plurality of feature amounts, N is the number of feature dimensions, M> N) obtained by this method is representative information of all stations. The all-station representative
局所代表情報抽出部42は、特徴量抽出部3によって抽出された複数の特徴量を受け取る。局所代表情報抽出部42は、受け取った複数の特徴量についてクラスタリング処理を行い、複数のクラスタを生成する。生成された各クラスタが一つのトピックに対応する。例えば、クラスタリング処理は、k-means法、LDA(Latent Dirichlet Allocation)法などを用いて実行されても良い。
The local representative
クラスタリング処理では、特徴量から算出される画像類似度が近い画像群が、一つのクラスタ(トピック)として出力される。局所代表情報は、各クラスタに含まれる学習画像の情報を簡潔且つ精度よく表す情報である。例えば、局所代表情報抽出部42は、クラスタに含まれる学習画像のSIFT特徴点における局所特徴量に基づき、局所代表情報を抽出してもよい。例えば、この処理にはsparse representation手法が適用されてもよい。以下、局所代表情報をDI cとして表す。c=1,2…Kである。Kはトピックの数である。
In the clustering process, an image group with similar image similarity calculated from the feature amount is output as one cluster (topic). The local representative information is information that simply and accurately represents the information of the learning image included in each cluster. For example, the local representative
局所代表情報抽出部42は、抽出された局所代表情報を蓄積部1に格納する。また、局所代表情報抽出部42は、抽出された局所代表情報を学習画像対応付け部5へ出力する。
The local representative
学習画像対応付け部5は、全局代表情報抽出部41から、全局代表情報を受け取る。学習画像対応付け部5は、局所代表情報抽出部42から、局所代表情報を受け取る。なお、以下の説明では、全体代表情報及び局所代表情報をまとめて「代表情報」と記載する。学習画像対応付け部5は、代表情報を用いて学習画像群の各画像の再構成誤差を取得する。学習画像対応付け部5は、再構成誤差が小さい画像から順に、各学習画像を複数のトピックに対応付ける。学習画像対応付け部5は、トピックと学習画像との対応関係を画像辞書生成部6へ出力する。
The learning image association unit 5 receives all station representative information from the all station representative
画像辞書生成部6は、学習画像対応付け部5からトピック毎の学習画像を受け取る。画像辞書生成部6は、画像辞書を生成しようとしている意味ラベル(以下、「処理対象意味ラベル」という。)に付与された学習画像を収集し、機械学習手法を用いてトピック毎の識別モデルを構築する。そして、画像辞書生成部6は、トピック毎の識別モデルを合わせて、処理対象意味ラベルの画像辞書を生成する。画像辞書生成部6は、生成した画像辞書を蓄積部1に格納する。
The image
次に、全局代表情報及び局所代表情報について説明する。
sparse representationが用いられた場合、全局代表情報及び局所代表情報はそれぞれ以下の式1及び式2によって表される。
When sparse representation is used, all-station representative information and local representative information are expressed by the following
式1において、Dcは全局代表情報と局所代表情報から構成される代表情報を表す基底である。DSは全局代表情報を表す基底である。DI cは局所代表情報を表す基底である。
式2において、GcはDcに対応する係数である。GS cは画像がDSで再構成されるときのDSに対応する係数である。GI cは画像があるDI c(c=1、2、・・・)で再構成されるときのDI cに対応する係数である。
In
Dcは、学習画像群のsparse codingの基底と個々のトピックの基底とを結合する。すなわち、[DS,DI c]は行列を横に並べたものであり、Gcは基底に対応する係数である。
参考文献1におけるトピックモデルは、1セットのパラメータ(k-meansによる平均特徴量など)で表される。これに対し、本実施形態では、全局代表情報及び局所代表情報を用いてトピックモデルが表される。このように全体の情報及び局所の情報が利用されるため、情報量ロスが少なく精度よくトピックの内容を表現できる。
D c combines the sparse coding bases of the learning images and the bases of the individual topics. In other words, [D S , D I c ] is a matrix in which the matrix is arranged horizontally, and G c is a coefficient corresponding to the base.
The topic model in
図2は、画像辞書生成装置10の処理の具体例を示すフローチャートである。以下、図2を用いて画像辞書生成装置10の処理例について説明する。
FIG. 2 is a flowchart illustrating a specific example of processing of the image
まず、学習画像群収集部2が、蓄積部1から、意味ラベルに対応付けられた全ての学習画像(学習画像群)を読み出す(ステップS201)。次に、特徴量抽出部3が、読み出された学習画像群において、学習画像毎に特徴量を抽出する(ステップS202)。次に、全局代表情報抽出部41が、全局代表情報を抽出する(ステップS203)。次に、局所代表情報抽出部42が、特徴量抽出部3によって抽出された特徴量に対してクラスタリング処理を行う。そして、局所代表情報抽出部42が、各クラスタの局所代表情報を抽出する(ステップS204)。
First, the learning image
次に、学習画像対応付け部5が、代表情報に基づいて、学習画像群における各学習画像を各トピックに対応付ける(ステップS205)。 Next, the learning image association unit 5 associates each learning image in the learning image group with each topic based on the representative information (step S205).
図3は、学習画像対応付け部5が学習画像をトピックに対応付ける処理の具体例を示すフローチャートである。まず、学習画像対応付け部5は、全ての意味ラベルに関する学習画像群(N枚の学習画像を含む:Nは1以上の整数)を読み出す(ステップS301)。次に、学習画像対応付け部5は、ステップS203及びステップS204において抽出された代表情報を読み出す(ステップS302)。 FIG. 3 is a flowchart illustrating a specific example of processing in which the learning image association unit 5 associates the learning image with the topic. First, the learning image associating unit 5 reads out a learning image group (including N learning images: N is an integer of 1 or more) related to all semantic labels (step S301). Next, the learning image association unit 5 reads the representative information extracted in step S203 and step S204 (step S302).
次に、学習画像対応付け部5は、変数nに1を代入する(ステップS303)。学習画像対応付け部5は、K個のトピックモデルを用いて、n番目の学習画像(特徴量はxi)の再構成誤差を算出する(ステップS304)。
Sparse codingが用いられる場合、c番目のトピックモデルを用いて再構成する数式は以下の様に表される。
When Sparse coding is used, the mathematical formula reconstructed using the c-th topic model is expressed as follows.
gciは係数Gcにおけるi番目の列の係数である。そして、n番目の学習画像について、c番目のトピックモデルを用いた再構成誤差は以下の数式で表される。
次に、学習画像対応付け部5は、学習画像群に含まれる全ての学習画像について再構成誤差の算出が完了したか否か判定する(ステップS305)。具体的には、学習画像対応付け部5は、変数nが学習画像群の枚数Nよりも小さいか否か判定する。変数nがNよりも小さい場合(ステップS305−YES)、学習画像対応付け部5は、変数nをインクリメントしてステップS304の処理に戻る(ステップS307)。一方、変数nがN以上である場合(ステップS305−NO)、学習画像対応付け部5は、各トピックについて、算出された再構成誤差の小さい方から順に上位P個(Pは1以上の整数)の学習画像をそのトピックに対応付ける(ステップS306)。 Next, the learning image association unit 5 determines whether or not the calculation of the reconstruction error has been completed for all the learning images included in the learning image group (step S305). Specifically, the learning image association unit 5 determines whether or not the variable n is smaller than the number N of learning images. When the variable n is smaller than N (step S305—YES), the learning image association unit 5 increments the variable n and returns to the process of step S304 (step S307). On the other hand, when the variable n is greater than or equal to N (step S305—NO), the learning image associating unit 5 determines, for each topic, the top P (P is an integer equal to or greater than 1) in order from the smallest calculated reconstruction error. ) Is associated with the topic (step S306).
Pの値は例えば以下の様に設定されてもよい。まず、再構成誤差εicを小さい順に一列で並べる。例えば、(0.58,0.6,0.62,0.95,0.96,0.98)のように再構成誤差が並べられる。次に、再構成誤差εicを、一つ前の再構成誤差εicで除算する。このようにして得られる値を前後で比較し、数値が急に高くなる時点までに処理されたトピックの数をPとして採用する。上記の例では、0.95の属するトピックよりも前のトピックが採用される。このような処理を行うことにより、上位P個を自動で決定することが可能となる。 The value of P may be set as follows, for example. First, the reconstruction errors ε ic are arranged in a line in ascending order. For example, reconstruction errors are arranged like (0.58, 0.6, 0.62, 0.95, 0.96, 0.98). Next, the reconstruction error epsilon ics, divided by the previous reconstruction error epsilon ics. The values obtained in this way are compared before and after, and the number of topics processed up to the point when the numerical value suddenly increases is adopted as P. In the above example, the topic before the topic to which 0.95 belongs is adopted. By performing such processing, it is possible to automatically determine the top P.
以上の処理によって、学習画像が複数のトピックに対応付けられる。例えば、SIFT点や領域特徴量が用いられた場合、意味ラベル“ビーチ”に対応付けられた学習画像が、“太陽”、“人”、“海”のようなトピックに対応付けられる。 Through the above processing, the learning image is associated with a plurality of topics. For example, when SIFT points and area feature quantities are used, the learning image associated with the semantic label “beach” is associated with topics such as “sun”, “people”, and “sea”.
図2の説明に戻る。ステップS205の処理の後、画像辞書生成部6は、トピック毎に対応付けられた学習画像に基づいて、意味ラベルに関する画像辞書を生成する(ステップS206)。
Returning to the description of FIG. After the process of step S205, the image
図4は、画像辞書生成部6が画像辞書を生成する処理の具体例を示すフローチャートである。まず、画像辞書生成部6が、M個のトピックモデル毎に、各トピックモデルに対応付けられた複数の学習画像を読み込む(ステップS401)。次に、画像辞書生成部6が、変数cに1を代入する(ステップS402)。次に、画像辞書生成部6が、変数mに1を代入する(ステップS403)。
FIG. 4 is a flowchart showing a specific example of processing in which the image
次に、画像辞書生成部6が、m番目のトピックモデルに対応付けられた学習画像の中から、c番目の意味ラベルに付与された学習画像を取得する(ステップS404)。この処理において、画像辞書生成部6は、このような条件に該当する全ての学習画像を取得する。次に、画像辞書生成部6が、取得された学習画像の数が所定の閾値以上であるか否か判定する(ステップS405)。所得された学習画像の数が所定の閾値以上である場合(ステップS405−YES)、画像辞書生成部6が、機械学習手法を用いて、c番目の意味ラベルに関するm番目のトピックの識別器を生成する(ステップS406)。機械学習手法の具体例として、SVM(Support vector machine)がある。識別器を生成する際に用いられる特徴量については、ステップS202において抽出される特徴量が物理的な特徴量(色や模様など)である場合、そのまま特徴量が使用されても良い。ステップS202において抽出される特徴量がSIFT特徴点や領域特徴量の場合、n番目の学習画像におけるm番目のトピックモデルとの類似度が一定の値以上である特徴点や領域特徴量を特徴量として用いれば良い。
Next, the image
ステップS405の処理において、取得された学習画像の数が所定の閾値未満である場合(ステップS405−NO)、又はステップS406の処理の後、画像辞書生成部6が、c番目の意味ラベルに関して、全てのトピックに対してステップS404〜S406の処理が完了したか否か判定する(ステップS407)。処理が完了していないトピックが存在する場合、すなわち変数mがMより小さい場合(ステップS407−YES)、画像辞書生成部6が、mをインクリメントして(ステップS410)、ステップS404の処理に戻る。
In the process of step S405, when the number of acquired learning images is less than the predetermined threshold (step S405-NO), or after the process of step S406, the image
一方、ステップS407の処理において、全てのトピックについてステップS404〜S406の処理が完了した場合(ステップS407−NO)、すなわち変数mがM以上である場合、画像辞書生成部6が、各トピックの識別器をc番目の意味ラベルの画像辞書として蓄積部1に格納する(ステップS408)。
On the other hand, in the process of step S407, when the processes of steps S404 to S406 are completed for all topics (step S407-NO), that is, when the variable m is M or more, the image
次に、画像辞書生成部6が、全ての意味ラベルに対してステップS408の処理が行われたか否か判定する(ステップS409)。ステップS408の処理が行われていない意味ラベルが存在する場合(ステップS409−YES)、すなわち変数cがCよりも小さい場合、画像辞書生成部6が、変数cをインクリメントしてステップS403の処理に戻る。一方、全ての意味ラベルについてステップS408の処理が完了している場合(ステップS409−NO)、すなわち変数cがC以上である場合、画像辞書生成部6は処理を終了する。
Next, the image
図5は、画像意味ラベル付与装置20の構成を示す概略ブロック図である。画像意味ラベル付与装置20は、バスで接続されたCPUやメモリや補助記憶装置などを備え、画像意味ラベル付与プログラムを実行する。画像意味ラベル付与装置20は、画像意味ラベル付与プログラムの実行によって、蓄積部21、画像収集部22、特徴量抽出部23、対応付け部24、類似度統合部25及び画像意味ラベル付与部26を備える装置として機能する。なお、画像意味ラベル付与装置20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。画像辞書生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
FIG. 5 is a schematic block diagram showing the configuration of the image meaning
蓄積部21は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。蓄積部21は、分類対象となる画像、代表情報、画像辞書等のデータを蓄積する。
The
画像収集部22は、蓄積部21に対して分類の指定を出力することによって、蓄積部21に格納された分析対象画像を受け取る。画像収集部22は、受け取った分析対象画像を特徴量抽出部23へ出力する。
The
特徴量抽出部23は、画像収集部22から分析対象画像を受け取る。特徴量抽出部23は、受け取った分析対象画像について、特徴量を抽出する。特徴量抽出部23は、例えば、色ヒストグラムや模様ヒストグラムなどの特徴量(物理特徴量)を抽出しても良い。特徴量抽出部23は、学習画像を分割し、各領域から特徴量を抽出しても良い。特徴量抽出部23は、学習画像からSIFT特徴点を抽出し、SIFTなどの局所特徴量を抽出しても良い。特徴量抽出部23が特徴量を抽出する際に用いるアルゴリズムは、画像辞書生成装置10の特徴量抽出部3と同じアルゴリズムであることが望ましい。特徴量抽出部23は、抽出された特徴量を対応付け部24へ出力する。
The feature
対応付け部24は、特徴量抽出部23から受け取った特徴量と、蓄積部21から受け取った代表情報と、に基づいて分析対象画像の再構成誤差を算出する。対応付け部24は、再構成誤差が小さい順に複数のトピックに分析対象画像を対応付ける。対応付け部24は、対応付けの結果を示す情報(対応付け情報)を類似度統合部25へ出力する。
The
類似度統合部25は、対応付け部24から対応付け情報を受け取る。類似度統合部25は、蓄積部21から画像辞書を受け取る。類似度統合部25は、分析対象画像と各トピックの識別器との類似度を算出する。類似度統合部25は、対応付け部24から受け取ったトピック毎の再構成誤差を用いて類似度を統合する。類似度統合部25は、統合された結果を示す情報(統合情報)を画像意味ラベル付与部26へ出力する。
The
画像意味ラベル付与部26は、類似度統合部25から受け取った統合情報を用いて、分析対象画像に意味ラベルを付与する。画像意味ラベル付与部26は、意味ラベルが付与された画像を蓄積部21に格納する。
The image meaning
図6は、画像辞書生成装置10によって生成された画像辞書を用いて、画像意味ラベル付与装置20が画像や映像に意味ラベルを付与する処理の具体例を表すフローチャートである。図7は、画像辞書を用いて画像や映像に意味ラベルを付与する処理の概略を表す概略図である。以下、画像辞書を用いて画像や映像に意味ラベルを付与する処理の具体例について説明する。
FIG. 6 is a flowchart illustrating a specific example of processing in which the image meaning
まず、意味ラベル付与装置20は、全局代表情報及び局所代表情報を蓄積部1から取得する(ステップS501)。次に、意味ラベル付与装置20は、意味ラベルの付与対象となる画像(例えばJ枚)を読み込む(ステップS502)。次に、意味ラベル付与装置20は、変数jに1を代入する(ステップS503)。次に、意味ラベル付与装置20は、j番目の画像とトピックモデルDc(c=1、・・・、K)とを用いて、再構成誤差εjcを算出する。意味ラベル付与装置20は、所定の閾値以下の再構成誤差が算出されたトピックモデルDcとj番目の画像とを対応付ける。例えば、図7において、クロス“×”で表示されているトピックモデル(T1及びTm−1)と画像jとが対応付けられている。
First, the semantic
次に、意味ラベル付与装置20は、図7の表の列毎に、jが対応付けられたトピックモデルに関する特徴量とその列にある個々の識別器との類似度scとを算出する。そして、意味ラベル付与装置20は、意味ラベルCi(i=1,…,L:i及びLは1以上の整数)毎に算出した再構成誤差を重み付けとして用いて、算出された類似度scを統合することで、画像jと意味ラベルCiとの類似度を取得する。対応付けられた再構成誤差をεjc’とすると、重み付けwjcは以下の式5によって算出される。
Qは、行毎に画像jが対応するトピックの数を表す。画像jとある意味ラベルとの類似度は、式6によって算出される。
次に、意味ラベル付与装置20は、ステップS505において取得された類似度の高い方から順にR個までの意味ラベルを画像jに付与する(ステップS506)。次に意味ラベル付与装置20は、全ての画像に意味ラベルを付与したか否か判定する(ステップS507)。意味ラベルが付与されていない画像が存在する場合(ステップS507−YES)、すなわち変数jがJよりも小さい場合、意味ラベル付与装置20は変数jをインクリメントしてステップS504の処理に戻る。一方、意味ラベルが付与されていない画像が存在しない場合(ステップS507−NO)、すなわち変数jがJ以上である場合、意味ラベル付与装置20は処理を終了する。
Next, the semantic
画像辞書生成装置10では、画像群の全体情報を表す全局代表情報と、画像群に分けられたトピックの局所代表情報とを用いて、画像が複数のトピックに対応付けられる。また、それぞれのトピックの画像への貢献度は、再構成誤差の逆数によって与えられる。それぞれのトピックの画像への貢献度を利用して、トピック毎の識別結果が統合される。これらの処理により、精度良く画像辞書を生成することが可能となる。
In the image
また、画像辞書生成装置10では、全ての意味ラベルに関する学習画像群(様々な意味合いを持つ画像群)に基づいて、全ての意味ラベルに共通したトピックモデルが生成される。そのため、よりバリエーションに長けたトピックモデルを生成することが可能となる。例えば、“ビーチ”という意味ラベルに関する画像群のみから“人”のトピックモデルを生成する場合に比べて、“ビーチ”、“祭り”、“会議”、“野生”、“飲み会”などの豊富な意味ラベルに関する画像群から“人”のトピックモデルを生成した方が、より精度が良く汎用性の高いトピックモデルを生成することが可能となる。
Also, the image
なお、画像辞書の生成に際して機械学習手法が用いられるため、従来は学習データが多くなるにつれて処理時間が多くなるという問題もあった。例えば、非特許文献1のように一つの意味ラベルに対して全ての学習データを用いて一つの識別モデルを算出するような画像辞書生成方法では、学習画像の量に応じて膨大な処理時間を要してしまうという問題があった。このような問題に対し、画像辞書生成装置10では、全ての意味ラベルに対して共通したトピックモデルを生成するため、学習画像の量が増大した場合に処理時間の増大を抑える事が可能となる。
また、意味ラベルが大量に存在する場合や、意味ラベル付与対象となる画像が大量に存在する場合、より効率よく意味ラベルを付与することが可能となる。
In addition, since a machine learning method is used when generating an image dictionary, there has been a problem that processing time increases as learning data increases. For example, in an image dictionary generation method in which one identification model is calculated using all learning data for one semantic label as in
In addition, when there are a large number of semantic labels, or when there are a large number of images to which a semantic label is to be applied, it is possible to apply the semantic labels more efficiently.
<変形例>
図3のフローチャートのステップS306の処理において、学習画像対応付け部5は、再構成誤差に基づいて他の基準でトピックと学習画像との対応付けを行っても良い。例えば、学習画像対応付け部5は、各トピックについて、予め定められた閾値以下の再構成誤差の画像を全てそのトピックに対応付けても良い。
<Modification>
In the process of step S306 in the flowchart of FIG. 3, the learning image association unit 5 may associate the topic with the learning image based on another criterion based on the reconstruction error. For example, the learning image associating unit 5 may associate all the images of reconstruction errors that are equal to or less than a predetermined threshold with respect to each topic.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
10…画像辞書生成装置, 1…蓄積部, 2…学習画像群収集部, 3…特徴量抽出部, 4…代表情報抽出部, 41…全局代表情報抽出部, 42…局所代表情報抽出部, 5…学習画像対応付け部, 6…画像辞書生成部, 20…画像意味ラベル付与装置, 21…蓄積部, 22…画像収集部, 23…特徴量抽出部, 24…対応付け部, 25…類似度統合部, 26…画像意味ラベル付与部
DESCRIPTION OF
Claims (4)
前記特徴量に基づいて、前記意味ラベルに対応付けられた複数の学習画像の特徴を示す全局代表情報を抽出する全局代表情報抽出部と、
前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいて局所代表情報を抽出する局所代表情報抽出部と、
前記全局代表情報及び前記局所代表情報に基づいて、前記学習画像と前記クラスタとを対応付ける学習画像対応付け部と、
前記クラスタと複数の学習画像との対応付けに基づいて、各クラスタの識別器を生成し、前記識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成部と、
を備える画像辞書生成装置。 A feature amount extraction unit that extracts feature amounts of a plurality of learning images associated with a certain meaning label;
An all-station representative information extraction unit that extracts all-station representative information indicating features of a plurality of learning images associated with the semantic label, based on the feature amount;
Clustering the feature quantities, and for each cluster, a local representative information extraction unit that extracts local representative information based on the feature quantities included in the cluster;
A learning image association unit that associates the learning image with the cluster based on the all-station representative information and the local representative information;
An image dictionary generation unit that generates a classifier of each cluster based on the association between the cluster and a plurality of learning images, and acquires a combination of the classifiers as an image dictionary of the semantic labels;
An image dictionary generation device comprising:
前記特徴量に基づいて、前記意味ラベルに対応付けられた複数の学習画像の特徴を示す全局代表情報を抽出する全局代表情報抽出ステップと、
前記特徴量をクラスタリングし、クラスタ毎にそのクラスタに含まれる前記特徴量に基づいて局所代表情報を抽出する局所代表情報抽出ステップと、
前記全局代表情報及び前記局所代表情報に基づいて、前記学習画像と前記クラスタとを対応付ける学習画像対応付けステップと、
前記クラスタと複数の学習画像との対応付けに基づいて、各クラスタの識別器を生成し、前記識別器の組み合わせを前記意味ラベルの画像辞書として取得する画像辞書生成ステップと、
を有する画像辞書生成方法。 A feature amount extraction step for extracting feature amounts for a plurality of learning images associated with a certain meaning label;
All-station representative information extraction step for extracting all-station representative information indicating the characteristics of a plurality of learning images associated with the semantic label based on the feature amount;
Clustering the feature amounts, and extracting local representative information based on the feature amounts included in the clusters for each cluster; and
A learning image association step for associating the learning image with the cluster based on the all-station representative information and the local representative information;
An image dictionary generating step for generating a classifier of each cluster based on the association between the cluster and a plurality of learning images, and acquiring a combination of the classifiers as an image dictionary of the semantic labels;
An image dictionary generation method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013252201A JP2015109024A (en) | 2013-12-05 | 2013-12-05 | Image dictionary generation device, image dictionary generation method and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013252201A JP2015109024A (en) | 2013-12-05 | 2013-12-05 | Image dictionary generation device, image dictionary generation method and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015109024A true JP2015109024A (en) | 2015-06-11 |
Family
ID=53439309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013252201A Pending JP2015109024A (en) | 2013-12-05 | 2013-12-05 | Image dictionary generation device, image dictionary generation method and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015109024A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091249A (en) * | 2015-11-11 | 2017-05-25 | 株式会社東芝 | Automatic analyzer and analytic method |
JP2018160093A (en) * | 2017-03-23 | 2018-10-11 | 株式会社日立製作所 | Abnormality detection system and abnormality detection method |
JP2021047841A (en) * | 2019-09-19 | 2021-03-25 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and device for labeling point of interest, computer device, and storage medium |
US11836581B2 (en) | 2019-09-18 | 2023-12-05 | Fujifilm Business Innovation Corp. | Learning model generation apparatus, image correction apparatus, and non-transitory computer readable medium for generating learning model based on classified image information |
-
2013
- 2013-12-05 JP JP2013252201A patent/JP2015109024A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017091249A (en) * | 2015-11-11 | 2017-05-25 | 株式会社東芝 | Automatic analyzer and analytic method |
US10380730B2 (en) | 2015-11-11 | 2019-08-13 | Kabushiki Kaisha Toshiba | Analysis apparatus and analysis method |
US10713770B2 (en) | 2015-11-11 | 2020-07-14 | Kabushiki Kaisha Toshiba | Analysis apparatus and analysis method |
US11373289B2 (en) | 2015-11-11 | 2022-06-28 | Kabushiki Kaisha Toshiba | Analysis apparatus and analysis method |
JP2018160093A (en) * | 2017-03-23 | 2018-10-11 | 株式会社日立製作所 | Abnormality detection system and abnormality detection method |
US11836581B2 (en) | 2019-09-18 | 2023-12-05 | Fujifilm Business Innovation Corp. | Learning model generation apparatus, image correction apparatus, and non-transitory computer readable medium for generating learning model based on classified image information |
JP7408973B2 (en) | 2019-09-18 | 2024-01-09 | 富士フイルムビジネスイノベーション株式会社 | Learning model generation device, image correction device, learning model generation program, and image correction program |
JP2021047841A (en) * | 2019-09-19 | 2021-03-25 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method and device for labeling point of interest, computer device, and storage medium |
US11403766B2 (en) | 2019-09-19 | 2022-08-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for labeling point of interest |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turcot et al. | Better matching with fewer features: The selection of useful features in large database recognition problems | |
CN107209860B (en) | Method, system, and computer storage medium for processing weakly supervised images | |
JP6378855B1 (en) | Image search system, image search method and program | |
WO2012032788A1 (en) | Image recognition apparatus for objects in general and method therefor, using exclusive classifier | |
CN104392250A (en) | Image classification method based on MapReduce | |
Shen et al. | Content based image retrieval by combining color, texture and CENTRIST | |
CN110751027B (en) | Pedestrian re-identification method based on deep multi-instance learning | |
WO2020114100A1 (en) | Information processing method and apparatus, and computer storage medium | |
RU2013156261A (en) | METHOD OF CONSTRUCTION AND DETECTION OF THE THEMATIC STRUCTURE OF THE HOUSING | |
CN103886077B (en) | Short text clustering method and system | |
JP2015109024A (en) | Image dictionary generation device, image dictionary generation method and computer program | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
CN111125469A (en) | User clustering method and device for social network and computer equipment | |
JPWO2014118978A1 (en) | Learning method, information processing apparatus, and learning program | |
Yin et al. | Accurate and robust text detection: A step-in for text retrieval in natural scene images | |
JP5870014B2 (en) | Image dictionary generating apparatus, image dictionary generating method, and computer program | |
Suzuki | HCFormer: Unified Image Segmentation with Hierarchical Clustering | |
Kapadia et al. | Improved CBIR system using Multilayer CNN | |
WO2020179378A1 (en) | Information processing system, information processing method, and recording medium | |
JP2014102772A (en) | Program, device, and method for calculating similarity between contents represented by sets of feature vectors | |
Xiong et al. | An algorithm of image classification based on BP neural network | |
JP2017215784A (en) | Object detection device, method, and program | |
CN107092875B (en) | Novel scene recognition method | |
Ito et al. | The effects of unimodal representation choices on multimodal learning | |
Yuan et al. | Research of batik image classification based on support vector machine |