JP5373536B2 - 複数の画像モデルの混合としての画像のモデリング - Google Patents
複数の画像モデルの混合としての画像のモデリング Download PDFInfo
- Publication number
- JP5373536B2 JP5373536B2 JP2009235579A JP2009235579A JP5373536B2 JP 5373536 B2 JP5373536 B2 JP 5373536B2 JP 2009235579 A JP2009235579 A JP 2009235579A JP 2009235579 A JP2009235579 A JP 2009235579A JP 5373536 B2 JP5373536 B2 JP 5373536B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- images
- mixture
- representation
- reference images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一実装例では、画像(参照画像及び原画像)は、例えばガウシアン混合モデル(GMM)などの混合モデルとしてモデル化される。この例のシステムでは、画像Iを記述するGMMは、画像Iから抽出された一組の低レベル特徴ベクトルから推定される。その画像中の低レベル特徴の密度は、複数の分布関数(ガウシアン)の混合(組み合わせ)により推定され、表現される。したがって、GMMは、低レベル画像特徴のガウシアン標本(表現)の重み付き混合(組み合わせ)であり、各ガウシアンは平均ベクトルと共分散行列パラメータを有している。各画像は一組のガウシアンにより記述される。1つの実施例では、各画像20,24についてのGMMは、例えば発明者Liu 及び Perronninによる「OBJECT COMPARISON, RETRIEVAL, AND CATEGORIZATION METHODS AND APPARATUSES」と題する米国特許出願番号第11/947859号に記載されたような、汎用(ユニバーサル)GMMを適合させることにより生成される。
汎用GMMは、まず多数の画像(参照用の組に含まれる画像には限定されない)から抽出された多数のパッチを用いて学習する。そして、注目する画像から抽出されたパッチ群を用いてその汎用GMMを学習させることで、汎用GMMが適合される。
X={xt,t=1,…T}を、qにしたがって分布した一組の特徴ベクトルとする。これは典型的には、記述対象の画像24から抽出された一組の特徴ベクトルであり、最尤法(MLE)の枠組みの中でqにより既に生成済みであるとする。標本の数Tが十分に大きければ、大数の法則が用いることができ、目的関数(1)は以下のように近似される。
B節の方法の代わりとして、ここではqを直接用いる場合を検討する。qを推定するために用いられる標本Xよりもqを用いるのには少なくとも2つの理由がある。一つは、通常、Xを格納するのにはqを格納するのよりも著しく大きなスペースを要するということである。他の利点は、システムがいくつかのアプリオリ(先験的)な情報をqに組み込んでもよい(例えば、米国特許出願番号第11/947859号参照。この出願では画像GMMが最大事後確率(MAP)基準を用いて推定される)ということである。
qによりモデル化する対象の画像は参照画像pjのうちの1つである場合がある。これは、(例えば、分類作業において)画像の集合Sの中の各々の画像の表現を計算するのに、Sを参照画像の集合として用いようとする場合に起こる。もしq=piならば、目的関数(1)は、ωj=1かつωi=0,∀i≠jにより最小化される。すなわち、この場合、画像は当該画像自身のGMMによって完全に特徴付けされる。これは、参照画像の集合のの頃について有益な情報をもたらさない。この問題を避けるために、以下に示す3つの戦略(ストラテジー)のうちの1つを用いてもよい。
以上の説明では、画像はそれぞれGMMとしてモデル化された。他の実装例では、画像は多項分布としてモデル化される。例えば、G. Csurka, C. Dance, L. Fan, J. Willamowski 及びC. Brayによる "Visual Categorization with Bags of Keypoints," ECCV workshop on Statistical Learning in Computer Vision, 2004 や米国特許出願公開第2008/0069456号明細書に記載されたようなbag-of-visual-words (BOV)法に基づく画像表現を用いてもよい。この実施例では、画像は、視覚単語(visual word)の頻度のヒストグラムとしてコード化される。
上述のいずれの方法で生成された重み26のベクトルであっても、以下に例示するような様々な応用における画像24の表現として用いることができる。
画像検索のためのコンポーネントは、画像表現生成器内に含まれていてもよいし、画像表現生成器の別のコンポーネントであってもよいし、別のコンピュータであってもよい。 2.画像分類:画像のベクトル表現は、図3に模式的に示したように、ほとんどどのような判別分類器60に供給してもよい。例示する分類器は、スパースロジスティック回帰(sparse logistic regression)、ニューラルネットワーク、線形判別分析(linear discriminant analysis)、サポートベクターマシン(support vector machines)、ナイーブベイズ(naive Bayes)などに基づくものであってよい。例えば、分類器は、自動車、ポートレイト、陸の風景、海の風景、都会のシーンなどのようなクラスの集合の中の1つに手作業で割り当てられた画像群を用いて学習させてもよい。分類器は、新たな画像のベクトル表現に基づき、その画像に分類(クラス)ラベル62を割り当てる。分類器60は、画像表現生成器16に含まれていてもよいし、同じコンピュータ10内の別のコンポーネントであってもよいし、通信可能に接続された別のコンピュータであってもよい。
画像のデータセットを、分類アプリケーションにおけるこの実施形態の画像表現の精度をテストするのに用いた。そのデータセットとして、PASCAL VOC 2007データベースを用いた。これは20のオブジェクトカテゴリから構成されている。すなわち、人、鳥、猫、牛、犬、馬、羊、飛行機、自転車、ボート、バス、車、バイク、列車、瓶、椅子、ダイニングテーブル、鉢植えの植物、ソファ、及びテレビモニターというカテゴリである。そのデータセットの中には、学習用の画像が5011と、テスト(性能評価)用の画像が4092ある。
Claims (4)
- 画像表現を生成する方法であって、
原画像を複数の参照画像の混合としてモデル化するステップであって、前記原画像を前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより表現することを特徴とするステップ、
を含み、
前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
前記原画像が前記参照画像のうちの1つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
ことを特徴とする方法。 - 前記複数の参照画像は、一組の確率分布についての確率密度関数としてモデル化されている、請求項1記載の方法。
- 前記参照画像のモデルはガウシアン混合モデルである、請求項1記載の方法。
- 画像表現を生成するための、コンピュータに実装される装置であって、
複数の参照画像のモデルを記憶するメモリと、
メモリに記憶され、コンピュータのプロセッサにより実行される画像表現生成器であって、原画像の画像表現を、前記複数の参照画像のモデルの混合として出力し、前記混合においては、前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより前記原画像が記述されることを特徴とする画像表現生成器と、
を備え、
前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
前記原画像が前記参照画像のうちの1つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
ことを特徴とする装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/252,531 US8463051B2 (en) | 2008-10-16 | 2008-10-16 | Modeling images as mixtures of image models |
US12/252,531 | 2008-10-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010097610A JP2010097610A (ja) | 2010-04-30 |
JP5373536B2 true JP5373536B2 (ja) | 2013-12-18 |
Family
ID=42108730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009235579A Expired - Fee Related JP5373536B2 (ja) | 2008-10-16 | 2009-10-09 | 複数の画像モデルの混合としての画像のモデリング |
Country Status (2)
Country | Link |
---|---|
US (1) | US8463051B2 (ja) |
JP (1) | JP5373536B2 (ja) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008110013A1 (en) * | 2007-03-15 | 2008-09-18 | Centre Hospitalier De L'universite De Montreal | Image segmentation |
US9233399B2 (en) | 2010-02-09 | 2016-01-12 | Xerox Corporation | Document separation by document sequence reconstruction based on information capture |
US8655069B2 (en) * | 2010-03-05 | 2014-02-18 | Microsoft Corporation | Updating image segmentation following user input |
CN102893294A (zh) | 2010-04-30 | 2013-01-23 | 沃康普公司 | 概率密度函数估计器 |
US8675933B2 (en) | 2010-04-30 | 2014-03-18 | Vucomp, Inc. | Breast segmentation in radiographic images |
US8332429B2 (en) | 2010-06-22 | 2012-12-11 | Xerox Corporation | Photography assistant and method for assisting a user in photographing landmarks and scenes |
US9256799B2 (en) | 2010-07-07 | 2016-02-09 | Vucomp, Inc. | Marking system for computer-aided detection of breast abnormalities |
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
US8532399B2 (en) | 2010-08-20 | 2013-09-10 | Xerox Corporation | Large scale image classification |
US8566746B2 (en) | 2010-08-30 | 2013-10-22 | Xerox Corporation | Parameterization of a categorizer for adjusting image categorization and retrieval |
US8553045B2 (en) | 2010-09-24 | 2013-10-08 | Xerox Corporation | System and method for image color transfer based on target concepts |
US8731317B2 (en) | 2010-09-27 | 2014-05-20 | Xerox Corporation | Image classification employing image vectors compressed using vector quantization |
US8369616B2 (en) | 2010-10-20 | 2013-02-05 | Xerox Corporation | Chromatic matching game |
US8370338B2 (en) | 2010-12-03 | 2013-02-05 | Xerox Corporation | Large-scale asymmetric comparison computation for binary embeddings |
US8447767B2 (en) | 2010-12-15 | 2013-05-21 | Xerox Corporation | System and method for multimedia information retrieval |
US8379974B2 (en) | 2010-12-22 | 2013-02-19 | Xerox Corporation | Convex clustering for chromatic content modeling |
US9613258B2 (en) | 2011-02-18 | 2017-04-04 | Iomniscient Pty Ltd | Image quality assessment |
US9058611B2 (en) | 2011-03-17 | 2015-06-16 | Xerox Corporation | System and method for advertising using image search and classification |
US8594385B2 (en) | 2011-04-19 | 2013-11-26 | Xerox Corporation | Predicting the aesthetic value of an image |
US8712157B2 (en) | 2011-04-19 | 2014-04-29 | Xerox Corporation | Image quality assessment |
US8774515B2 (en) | 2011-04-20 | 2014-07-08 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
US9298982B2 (en) | 2011-07-26 | 2016-03-29 | Xerox Corporation | System and method for computing the visual profile of a place |
US8813111B2 (en) | 2011-08-22 | 2014-08-19 | Xerox Corporation | Photograph-based game |
US8533204B2 (en) | 2011-09-02 | 2013-09-10 | Xerox Corporation | Text-based searching of image data |
JP2013061732A (ja) * | 2011-09-12 | 2013-04-04 | Fuji Xerox Co Ltd | 画像識別情報付与プログラム及び画像識別情報付与装置 |
US8699789B2 (en) | 2011-09-12 | 2014-04-15 | Xerox Corporation | Document classification using multiple views |
US8824797B2 (en) | 2011-10-03 | 2014-09-02 | Xerox Corporation | Graph-based segmentation integrating visible and NIR information |
JP5821590B2 (ja) * | 2011-12-06 | 2015-11-24 | 富士ゼロックス株式会社 | 画像識別情報付与プログラム及び画像識別情報付与装置 |
US8489585B2 (en) | 2011-12-20 | 2013-07-16 | Xerox Corporation | Efficient document processing system and method |
US9665643B2 (en) | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US9864817B2 (en) * | 2012-01-28 | 2018-01-09 | Microsoft Technology Licensing, Llc | Determination of relationships between collections of disparate media types |
US9430563B2 (en) | 2012-02-02 | 2016-08-30 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
US9075824B2 (en) | 2012-04-27 | 2015-07-07 | Xerox Corporation | Retrieval system and method leveraging category-level labels |
US8666992B2 (en) | 2012-06-15 | 2014-03-04 | Xerox Corporation | Privacy preserving method for querying a remote public service |
US8892562B2 (en) | 2012-07-26 | 2014-11-18 | Xerox Corporation | Categorization of multi-page documents by anisotropic diffusion |
US8873812B2 (en) | 2012-08-06 | 2014-10-28 | Xerox Corporation | Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers |
US8879796B2 (en) | 2012-08-23 | 2014-11-04 | Xerox Corporation | Region refocusing for data-driven object localization |
JP5880454B2 (ja) | 2013-01-11 | 2016-03-09 | 富士ゼロックス株式会社 | 画像識別装置及びプログラム |
US9008429B2 (en) | 2013-02-01 | 2015-04-14 | Xerox Corporation | Label-embedding for text recognition |
US8879103B2 (en) | 2013-03-04 | 2014-11-04 | Xerox Corporation | System and method for highlighting barriers to reducing paper usage |
US8923608B2 (en) | 2013-03-04 | 2014-12-30 | Xerox Corporation | Pre-screening training data for classifiers |
US9384423B2 (en) | 2013-05-28 | 2016-07-05 | Xerox Corporation | System and method for OCR output verification |
US9082047B2 (en) | 2013-08-20 | 2015-07-14 | Xerox Corporation | Learning beautiful and ugly visual attributes |
US9412031B2 (en) | 2013-10-16 | 2016-08-09 | Xerox Corporation | Delayed vehicle identification for privacy enforcement |
US9779284B2 (en) | 2013-12-17 | 2017-10-03 | Conduent Business Services, Llc | Privacy-preserving evidence in ALPR applications |
US9424492B2 (en) | 2013-12-27 | 2016-08-23 | Xerox Corporation | Weighting scheme for pooling image descriptors |
US9158971B2 (en) | 2014-03-03 | 2015-10-13 | Xerox Corporation | Self-learning object detectors for unlabeled videos using multi-task learning |
US9639806B2 (en) | 2014-04-15 | 2017-05-02 | Xerox Corporation | System and method for predicting iconicity of an image |
US9589231B2 (en) | 2014-04-28 | 2017-03-07 | Xerox Corporation | Social medical network for diagnosis assistance |
US9697439B2 (en) | 2014-10-02 | 2017-07-04 | Xerox Corporation | Efficient object detection with patch-level window processing |
US9298981B1 (en) | 2014-10-08 | 2016-03-29 | Xerox Corporation | Categorizer assisted capture of customer documents using a mobile device |
US9575952B2 (en) | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US9443164B2 (en) | 2014-12-02 | 2016-09-13 | Xerox Corporation | System and method for product identification |
US9436876B1 (en) * | 2014-12-19 | 2016-09-06 | Amazon Technologies, Inc. | Video segmentation techniques |
US9216591B1 (en) | 2014-12-23 | 2015-12-22 | Xerox Corporation | Method and system for mutual augmentation of a motivational printing awareness platform and recommendation-enabled printing drivers |
US9367763B1 (en) * | 2015-01-12 | 2016-06-14 | Xerox Corporation | Privacy-preserving text to image matching |
US9626594B2 (en) | 2015-01-21 | 2017-04-18 | Xerox Corporation | Method and system to perform text-to-image queries with wildcards |
US9600738B2 (en) | 2015-04-07 | 2017-03-21 | Xerox Corporation | Discriminative embedding of local color names for object retrieval and classification |
US9514391B2 (en) * | 2015-04-20 | 2016-12-06 | Xerox Corporation | Fisher vectors meet neural networks: a hybrid visual classification architecture |
US9443320B1 (en) | 2015-05-18 | 2016-09-13 | Xerox Corporation | Multi-object tracking with generic object proposals |
US11281993B2 (en) * | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10140553B1 (en) * | 2018-03-08 | 2018-11-27 | Capital One Services, Llc | Machine learning artificial intelligence system for identifying vehicles |
US10902608B2 (en) * | 2019-05-23 | 2021-01-26 | Microsoft Technology Licensing, Llc | Segmentation for holographic images |
CN111325162A (zh) * | 2020-02-25 | 2020-06-23 | 湖南大学 | 基于虚拟样本和残差融合的权重稀疏表示的人脸识别方法 |
CN111709344B (zh) * | 2020-06-09 | 2023-10-17 | 上海海事大学 | 一种基于高斯混合模型的epll图像去光照识别处理方法 |
CN113989553B (zh) * | 2021-10-25 | 2024-04-05 | 西安交通大学 | 一种面向图像模式分类的基于含混样本密度估计的证据建模方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2844943B2 (ja) | 1991-02-26 | 1999-01-13 | トヨタ自動車株式会社 | 車両用自動操向装置 |
US7039239B2 (en) * | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
JP4271964B2 (ja) | 2002-03-04 | 2009-06-03 | 三星電子株式会社 | 構成成分基盤pca/icaを利用した顔認識方法及びその装置 |
JP2004054947A (ja) * | 2002-07-16 | 2004-02-19 | Nec Corp | 物体照合システム、物体照合方法および物体照合プログラム |
US7124149B2 (en) | 2002-12-13 | 2006-10-17 | International Business Machines Corporation | Method and apparatus for content representation and retrieval in concept model space |
US7756341B2 (en) | 2005-06-30 | 2010-07-13 | Xerox Corporation | Generic visual categorization method and system |
US7680341B2 (en) | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
US20070299667A1 (en) * | 2006-06-22 | 2007-12-27 | Texas Instruments, Incorporated | System and method for reducing storage requirements for a model containing mixed weighted distributions and automatic speech recognition model incorporating the same |
US7885466B2 (en) | 2006-09-19 | 2011-02-08 | Xerox Corporation | Bags of visual context-dependent words for generic visual categorization |
US20080144068A1 (en) | 2006-12-13 | 2008-06-19 | Xerox Corporation. | Printer with image categorization capability |
KR101460059B1 (ko) * | 2007-12-17 | 2014-11-12 | 삼성전자주식회사 | 잡음 검출 방법 및 장치 |
-
2008
- 2008-10-16 US US12/252,531 patent/US8463051B2/en active Active
-
2009
- 2009-10-09 JP JP2009235579A patent/JP5373536B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010097610A (ja) | 2010-04-30 |
US20100098343A1 (en) | 2010-04-22 |
US8463051B2 (en) | 2013-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5373536B2 (ja) | 複数の画像モデルの混合としての画像のモデリング | |
Perronnin | Universal and adapted vocabularies for generic visual categorization | |
US10102443B1 (en) | Hierarchical conditional random field model for labeling and segmenting images | |
US7885794B2 (en) | Object comparison, retrieval, and categorization methods and apparatuses | |
US8374442B2 (en) | Linear spatial pyramid matching using sparse coding | |
Perronnin et al. | Adapted vocabularies for generic visual categorization | |
US7680341B2 (en) | Generic visual classification with gradient components-based dimensionality enhancement | |
US7885466B2 (en) | Bags of visual context-dependent words for generic visual categorization | |
US9400918B2 (en) | Compact face representation | |
US8699789B2 (en) | Document classification using multiple views | |
US20140219563A1 (en) | Label-embedding for text recognition | |
US8666992B2 (en) | Privacy preserving method for querying a remote public service | |
CN114549894A (zh) | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 | |
Chen et al. | Discriminative BoW framework for mobile landmark recognition | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
Wang et al. | Aspect-ratio-preserving multi-patch image aesthetics score prediction | |
WO2023088174A1 (zh) | 目标检测方法及装置 | |
CN111340057B (zh) | 一种分类模型训练的方法及装置 | |
JP5214679B2 (ja) | 学習装置、方法及びプログラム | |
EP3166022A1 (en) | Method and apparatus for image search using sparsifying analysis operators | |
EP2172874B1 (en) | Modeling images as mixtures of image models | |
Lu et al. | Image categorization via robust pLSA | |
EP3166021A1 (en) | Method and apparatus for image search using sparsifying analysis and synthesis operators | |
Viitaniemi et al. | Evaluating the performance in automatic image annotation: Example case by adaptive fusion of global image features | |
JP5652250B2 (ja) | 画像処理プログラム及び画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130919 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |