JP5565190B2 - 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 - Google Patents
学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 Download PDFInfo
- Publication number
- JP5565190B2 JP5565190B2 JP2010180262A JP2010180262A JP5565190B2 JP 5565190 B2 JP5565190 B2 JP 5565190B2 JP 2010180262 A JP2010180262 A JP 2010180262A JP 2010180262 A JP2010180262 A JP 2010180262A JP 5565190 B2 JP5565190 B2 JP 5565190B2
- Authority
- JP
- Japan
- Prior art keywords
- identification information
- learning model
- image
- feature
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
通化して前記学習モデルを最適化する前記[1]に記載の学習モデル作成プログラム。
[3]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、前記[1]に記載の学習モデル作成プログラム。
[5]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、前記[4]に記載の画像識別情報付与プログラム。
[7]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、前記[6]に記載の学習モデル作成装置。
[9]前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、前記[8]に記載の画像識別情報付与装置。
ことができる。
図2は、本アノテーションシステムの全体の動作の一例を示すフローチャートである。本アノテーションシステム100は、大きく4つの段階、すなわち学習フェーズ(S10)、最適化フェーズ(S20)、検証フェーズ(S30)及び更新フェーズ(S40)を有する。
図3に示すように、学習フェーズでは、学習コーパス1の学習用画像から様々な特徴量を抽出し、識別器を用いて学習モデルを構築する。学習フェーズでは、構築した学習モデルを再利用するために、学習モデルの各種パラメータを学習モデルデータベースに保存する。学習モデルの各種パラメータは、後述する表2に示すように、学習モデルマトリクス51の形式で保存する。
まず、識別器群作成部10は、学習コーパス1の学習用画像IをFH法、Meanshift法等の既存の領域分割手法を用いて複数の局所領域に分割し、局所領域の位置情報を局所領域情報53として記憶部50に記憶する。FH法は、例えばP.F. Felzenszwalb and D.P. Huttenlocher. “Efficient Graph-Based Image Segmentation”. International Journal of Computer Vision, 59(2):167-181, 2004.に開示されている。MeanShift法は、例えばD. Comaniciu and P. Meer. “Mean shift: A robust approach toward feature space analysis”. IEEE Trans. Pattern Anal. Machine Intell., 24:603-619, 2002.に開示されている。
次に、識別器群作成部10は、各局所領域からそれぞれ複数種類の特徴量を抽出する。特徴量は、本実施の形態では、RGB、normalized−RG、HSV、LAB、robustHue特徴量(van de Weijer, C. Schmid, “Coloring Local Feature Extraction”, ECCV 2006を参照)、Gabor特徴量、DCT特徴量、SIFT特徴量(D. G. Lowe, “Object recognition from local scale invariant features”, Proc. of IEEE International Conference on Computer Vision (ICCV), pp.1150-1157, 1999.を参照)及びGIST特徴量(A. Oliva and A. Torralba. “Modeling the shape of the scene: a holistic representation of the spatial envelope”, International Journal of Computer Vision, 42(3):145-175, 2001.を参照)の合わせて9種類の特徴量を用いるが、いかなる特徴を用いてもよい。ここで、GIST特徴量のみは局所領域ではなく、大域領域(画像全体など)から抽出される。このとき、特徴ベクトルの数は、領域数(S)×特徴量の種類(N)である。各特徴ベクトルTの次元数は、特徴量の種類によって異なる。
図3に示すように、識別器群作成部10は、特徴量Tに「1」を入力する(S11)。次に、識別器群作成部10は、学習コーパス1全体から周知のK−Meansクラスタリングによって特徴量の種類Tの局所特徴量を抽出し(S12)、特徴量の種類T毎に代表特徴量集合を算出する(S13)。この算出結果は、コードブック群55のデータベースに格納する(このデータベースは代表特徴空間と呼ばれる)。ここで、コードブック群55の種類と特徴量の種類は同じくNであり、各コードブックの次元数は予め設定したCとする。
次に、識別器群作成部10は、学習用画像Iのある種類の特徴量ベクトル集合に対して、同じ種類のコードブックを用いて量子化プロセスを行い、ヒストグラムを作る(S14)。このとき、学習用画像Iに対して、量子化特徴量ベクトルT’の数は、領域数(S)×特徴量の種類(N)であり、各ベクトルT’の次元数は、コードブックの次元数と同じ(C)になる。
次に、学習フェーズは、上記生成された各種類の特徴量を用いて、SVM識別器により学習モデル群を生成する(S15)。ラベル毎に生成された学習モデル群の数はNである。ある学習モデル群に対して、1対L−1のL個バイナリSVM識別器による学習モデルを使う。ここで、Lはクラスの種類、すなわち予め揃えたラベルの数である。そして、学習モデル群を最適化フェーズに適用するために、このステップで生成した学習モデル群は、予め備えたラベルごとに、学習モデルマトリクス51というデータベースに格納しておく。このとき、学習モデルマトリクスのサイズは、特徴量の種類(N)×予め揃えたラベルの数(L)である。
図4は、最適化フェーズの具体的な流れの一例を示す図である。この最適化フェーズでは、異なる種類の特徴間の影響も考慮して、さらに強い識別器を構成することで、最適化パラメータを出力する。
ここで、yk=−1はxがラベルLiに属さないことを、yk=+1はxがラベルLiに属することを意味する。Kはカーネル関数であり、αとbは学習モデルの構成要素(パラメータ)である。このαとbは、以下の(数4)計算式(4)により最適化する。
実施例1として、ラベルの事後確率を上記(数7)から以下の(数9)のように変形する。
上記(数9)において、最適化パラメータの数は2×L×Nであるので、最適化フェーズで複雑なマトリックス計算が必要となる。この計算時間を減らすために、本実施例2では、sigmoidのパラメータを同一のラベル範囲で共通化して、計算量を減らしている。実施例2では、以下の(数10)と(数11)に従って、学習モデルのパラメータを最適化する。
図5は、検証フェーズの具体的な流れの一例を示す。次に、検証フェーズでは、レベル付け部30が最適化フェーズで生成した最適化パラメータを用いて、画像に最終的なアノテーションを付ける。検証フェーズでは、未知画像U(ラベルを付けたい画像)にラベリングする。特徴量の抽出ステップは学習フェーズと同様である。すなわち、特徴生成部32によりクエリ画像を分割し、分割した局所領域から複数種類の特徴量を抽出し、局所特徴量を計算する(S31)。特徴量の種類1〜N毎の特徴量集合を算出する(S32)。
ここで、ωkは局所領域による重み係数であり、Riは意味的なラベルLiが発生する確率である。ωkの一例としてωk局所領域kの面積が考えられる。また一定値でもよい。算出したラベルの発生確率によって、ユーザから指定されたしきい値で上位いくつかのラベルを未知画像Uに添付して、出力部41に表示する。
図6は、更新フェーズの流れの一例を示す図である。更新フェーズでは、ユーザインタフェースにより修正したいアノテーションを指定して(S41、S42)、本システムの学習フェーズをもう一度利用して、修正・更新部40は、学習モデルとパラメータを最適化する(S43)。そして修正・更新部40は、学習コーパス1の更新をしたときに、この学習コーパス1を使用するために学習モデルマトリクス51、ラベル辞書2なども更新する(S44)。このとき、修正・更新部40は、修正したアノテーションがラベル辞書2に載ってない場合、新規なラベルをアノテーションの結果として登録しておく。
図7は、検証フェーズの具体例を示す図である。図7において、アノテーションの種類は、例えば、5種類であり(L=5、flower、petals、leaf、sky、tiger)、画像の分割領域数は9であり(S=9)、各領域による局所特徴量の種類は3である(N=3;特徴量は色のLab、テクスチャのSIFT(Scale Invariant Feature Transform)、形状のGaborの3種類)。
表7は、比較例のパラメータAを示す。
なお、本発明は、上記実施の形態に限定されず、発明の要旨を逸脱しない範囲で種々に変形が可能である。例えば、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入替え、削除、追加等は可能である。
Claims (9)
- コンピュータを、
画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応
付けるための学習モデルを前記識別情報及び前記特徴量の種類毎に作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段として機能させるための学習モデル作成プログラム。 - 前記最適化手段は、前記シグモイド関数のパラメータを同一の識別情報の範囲で共通化して前記学習モデルを最適化する請求項1に記載の学習モデル作成プログラム。
- 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、請求項1に記載の学習モデル作成プログラム。 - コンピュータを、
画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段として機能させるための画像識別情報付与プログラム。 - 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、請求項4に記載の画像識別情報付与プログラム。 - 識別情報が既知の学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段とを備えた学習モデル作成装置。 - 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、請求項6に記載の学習モデル作成装置。 - 画像の内容を表す識別情報が既知の画像である学習用画像から複数の特徴量を抽出し、バイナリ識別器を用いて前記複数の特徴量を分類し、前記識別情報と前記特徴量とを対応付けるための学習モデルを作成する作成手段と、
前記識別情報の条件付確率を求める計算式をシグモイド関数で近似し、前記識別情報の条件付確率が最大となるように前記シグモイド関数のパラメータを最適化することで前記識別情報毎に前記学習モデルを最適化する最適化手段と、
識別情報が未知の画像である未知画像から複数の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された前記複数の特徴量、及び前記最適化手段によって最適化された前記学習モデルを用いて前記対象画像に対して識別情報を付与する識別情報付与手段とを備えた画像識別情報付与装置。 - 前記シグモイド関数は、以下の式(ただし、fは特徴量、A、Bはパラメータである。)
である、請求項8に記載の画像識別情報付与装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180262A JP5565190B2 (ja) | 2010-08-11 | 2010-08-11 | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 |
US13/040,032 US20120039527A1 (en) | 2010-08-11 | 2011-03-03 | Computer-readable medium storing learning-model generating program, computer-readable medium storing image-identification-information adding program, learning-model generating apparatus, image-identification-information adding apparatus, and image-identification-information adding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010180262A JP5565190B2 (ja) | 2010-08-11 | 2010-08-11 | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012038244A JP2012038244A (ja) | 2012-02-23 |
JP5565190B2 true JP5565190B2 (ja) | 2014-08-06 |
Family
ID=45564865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010180262A Expired - Fee Related JP5565190B2 (ja) | 2010-08-11 | 2010-08-11 | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120039527A1 (ja) |
JP (1) | JP5565190B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
JP5521881B2 (ja) * | 2010-08-12 | 2014-06-18 | 富士ゼロックス株式会社 | 画像識別情報付与プログラム及び画像識別情報付与装置 |
US8560517B2 (en) * | 2011-07-05 | 2013-10-15 | Microsoft Corporation | Object retrieval using visual query context |
CN102819844A (zh) * | 2012-08-22 | 2012-12-12 | 上海海事大学 | 适用于移动机器人相对运动估计的激光粒子影像配准方法 |
JP5880454B2 (ja) * | 2013-01-11 | 2016-03-09 | 富士ゼロックス株式会社 | 画像識別装置及びプログラム |
US9754177B2 (en) * | 2013-06-21 | 2017-09-05 | Microsoft Technology Licensing, Llc | Identifying objects within an image |
JP6355372B2 (ja) * | 2014-03-17 | 2018-07-11 | 国立大学法人豊橋技術科学大学 | 三次元モデル特徴抽出方法、及び三次元モデル・アノテーションシステム |
US10467259B2 (en) | 2014-06-17 | 2019-11-05 | Maluuba Inc. | Method and system for classifying queries |
US9715486B2 (en) * | 2014-08-05 | 2017-07-25 | Linkedin Corporation | Annotation probability distribution based on a factor graph |
US9842390B2 (en) * | 2015-02-06 | 2017-12-12 | International Business Machines Corporation | Automatic ground truth generation for medical image collections |
JP6437902B2 (ja) * | 2015-09-18 | 2018-12-12 | 富士フイルム株式会社 | 画像抽出システム,画像抽出方法,画像抽出プログラムおよびそのプログラムを格納した記録媒体 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
JP7235272B2 (ja) * | 2018-05-16 | 2023-03-08 | 株式会社アドダイス | 画像処理装置及び検査システム |
US12056216B2 (en) | 2020-03-19 | 2024-08-06 | Nec Corporation | Image processing method |
CN111667063B (zh) * | 2020-06-30 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 基于fpga的数据处理方法及装置 |
TW202232437A (zh) * | 2021-02-09 | 2022-08-16 | 阿物科技股份有限公司 | 圖像分類與標示方法及系統 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3529036B2 (ja) * | 1999-06-11 | 2004-05-24 | 株式会社日立製作所 | 文書付き画像の分類方法 |
US7783082B2 (en) * | 2003-06-30 | 2010-08-24 | Honda Motor Co., Ltd. | System and method for face recognition |
JP2005044330A (ja) * | 2003-07-24 | 2005-02-17 | Univ Of California San Diego | 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置 |
WO2005114557A2 (en) * | 2004-05-13 | 2005-12-01 | Proximex | Multimodal high-dimensional data fusion for classification and identification |
JP2009282685A (ja) * | 2008-05-21 | 2009-12-03 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP5157848B2 (ja) * | 2008-11-26 | 2013-03-06 | 株式会社リコー | 画像処理装置、画像処理方法、コンピュータプログラム、及び、情報記録媒体 |
-
2010
- 2010-08-11 JP JP2010180262A patent/JP5565190B2/ja not_active Expired - Fee Related
-
2011
- 2011-03-03 US US13/040,032 patent/US20120039527A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2012038244A (ja) | 2012-02-23 |
US20120039527A1 (en) | 2012-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5565190B2 (ja) | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 | |
US11657602B2 (en) | Font identification from imagery | |
Shi et al. | Distance-normalized unified representation for monocular 3d object detection | |
JP2022538866A (ja) | 画像前処理のためのシステム及び方法 | |
Yan et al. | Ranking with uncertain labels | |
Zhang et al. | Simplifying mixture models through function approximation | |
Long et al. | Accurate object detection with location relaxation and regionlets re-localization | |
CN110008844B (zh) | 一种融合slic算法的kcf长期手势跟踪方法 | |
US20240273134A1 (en) | Image encoder training method and apparatus, device, and medium | |
Zagoris et al. | Image retrieval systems based on compact shape descriptor and relevance feedback information | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
WO2022035942A1 (en) | Systems and methods for machine learning-based document classification | |
CN110889865A (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
WO2017188048A1 (ja) | 作成装置、作成プログラム、および作成方法 | |
Kapoor et al. | Which faces to tag: Adding prior constraints into active learning | |
CN113298009A (zh) | 一种基于熵正则化的自适应近邻人脸图像聚类方法 | |
JP5311899B2 (ja) | パターン検出器の学習装置、学習方法及びプログラム | |
He et al. | Few-shot and meta-learning methods for image understanding: a survey | |
CN115203408A (zh) | 一种多模态试验数据智能标注方法 | |
Nanda et al. | A person re-identification framework by inlier-set group modeling for video surveillance | |
Wang et al. | Sparse representation for image classification via paired dictionary learning | |
CN117422917A (zh) | 一种高光谱遥感图像分类方法及相关设备 | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
Nock et al. | Boosting k-NN for categorization of natural scenes | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140602 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5565190 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |