JP2021524103A - 画像内のオブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラム - Google Patents

画像内のオブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2021524103A
JP2021524103A JP2020564337A JP2020564337A JP2021524103A JP 2021524103 A JP2021524103 A JP 2021524103A JP 2020564337 A JP2020564337 A JP 2020564337A JP 2020564337 A JP2020564337 A JP 2020564337A JP 2021524103 A JP2021524103 A JP 2021524103A
Authority
JP
Japan
Prior art keywords
learning model
query image
weighted value
image
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020564337A
Other languages
English (en)
Inventor
ヨ,ジェユン
Original Assignee
オ−ディーディー コンセプツ インク.
オ−ディーディー コンセプツ インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オ−ディーディー コンセプツ インク., オ−ディーディー コンセプツ インク. filed Critical オ−ディーディー コンセプツ インク.
Publication of JP2021524103A publication Critical patent/JP2021524103A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、オブジェクトの代表特性を抽出する方法及び装置に関する。本発明は、サーバが画像内のオブジェクトの代表特性を抽出する方法において、クエリ画像を受信するステップと、特定商品について学習した第1の学習モデルに前記クエリ画像を適用し、前記クエリ画像に含まれる前記特定商品に該当するオブジェクトの内部領域を抽出するサリエンシーマップ(saliency map)を生成するステップと、オブジェクトの特性抽出のために学習した第2の学習モデルに前記サリエンシーマップを加重値として適用するステップと、前記加重値を適用した第2の学習モデルに前記クエリ画像を入力し、前記オブジェクトの内部領域の特性分類情報を抽出するステップとを含むことを一つの特徴とする。【選択図】図3

Description

本発明は、オブジェクトの代表特性を抽出する方法及び装置に関し、特に、画像に含まれる商品オブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラムに関する。
一般に収集可能な商品画像は、商品に対する好感度を上げるための様々なオブジェクトを含む。例えば、衣類や装身具は、好感度の高い広告モデルが衣類や装身具を着用した状態で広告画像や商品画像を撮影するのが一般的であるが、これはモデルや背景、小物などが作り出す画像全体のイメージが商品に対する好感度に影響を及ぼすためである。
よって、ある商品を検索したときに検索結果として得られる画像の大多数に背景が含まれるのが一般的である。その結果、背景の比重が大きい画像がDBに含まれると、色をクエリとして検索を行ったときに、当該色を背景色とする画像が検索結果として出力されるエラーが発生し得る。
このようなエラーを減らすために、特許文献1(公開日:2017年3月8日)に開示されている通り、物体検出モデルを用いて候補領域を抽出し、候補領域から特徴を抽出する方法が用いられている。このような従来技術は、図1に示すように、オブジェクト別にバウンディングボックス10を生成し、バウンディングボックスから特徴を抽出するが、この場合も背景の比重が全画像から若干減少するにすぎず、バウンディングボックス内で背景の特性がオブジェクトの特性として誤抽出されるエラーを完全に除去することはできない。よって、少ない演算量で画像に含まれるオブジェクトの代表的な特性を正確に抽出する方法が求められている。
韓国登録特許第10−1801846号公報
本発明は、前記問題を解決するためになされたものであり、少ない演算量で画像に含まれる商品の代表的な特性を抽出する方法を提供することを目的とする。
また、本発明は、画像に含まれる背景の特性により画像内の商品の特性を正確に抽出できないという問題を解決し、従来の方法に比べて迅速に商品の特性を識別できるようにすることを目的とする。
前記目的を達成するために、本発明は、サーバが画像内のオブジェクトの代表特性を抽出する方法において、クエリ画像を受信するステップと、特定商品について学習した第1の学習モデルに前記クエリ画像を適用し、前記クエリ画像に含まれる前記特定商品に該当するオブジェクトの内部領域を抽出するサリエンシーマップ(saliency map)を生成するステップと、オブジェクトの特性抽出のために学習した第2の学習モデルに前記サリエンシーマップを加重値として適用するステップと、前記加重値を適用した第2の学習モデルに前記クエリ画像を入力し、前記オブジェクトの内部領域の特性分類情報を抽出するステップとを含むことを一つの特徴とする。
また、本発明は、画像内のオブジェクトの代表特性を抽出する装置において、クエリ画像を受信する通信部と、特定商品について学習した第1の学習モデルを用いて、前記クエリ画像内の前記特定商品に該当するオブジェクトの内部領域に対応するサリエンシーマップ(saliency map)を生成するマップ生成部と、オブジェクトの特性抽出のために学習した第2の学習モデルに前記サリエンシーマップを加重値として適用する加重値適用部と、前記加重値を適用した第2の学習モデルに前記クエリ画像を入力し、前記オブジェクトの内部領域の特性分類情報を抽出する特性抽出部とを含むことを他の特徴とする。
このような本発明によれば、少ない演算量で画像に含まれるオブジェクトの代表的な特性を抽出することができる。
また、本発明によれば、画像に含まれる背景の特性により画像内のオブジェクトの特性を正確に抽出できないという問題を解決することができ、従来の方法に比べて迅速に商品の特性を識別することができる。
さらに、本発明によれば、特性検出にオブジェクトの内部領域のみ用いるので、特性検出時に発生するエラーを大幅に減少させることができる。
従来技術により画像からオブジェクトを抽出する方法を示す図である。 本発明の一実施形態によるオブジェクトの代表特性抽出システムを示す図である。 本発明の一実施形態によるオブジェクトの代表特性抽出装置の構成を説明するブロック図である。 本発明の一実施形態によるオブジェクトの代表特性抽出方法を説明するフローチャートである。 本発明の一実施形態によるサリエンシーマップの加重値適用方法を説明するフローチャートである。 畳み込みニューラルネットワークを説明する図である。 本発明の一実施形態による学習モデルのエンコーダ・デコーダ構造を説明する図である。 本発明の一実施形態によるオブジェクトの代表特性抽出を説明する図である。
前記目的、特徴及び利点については添付図面を参照して詳細に後述する。よって、本発明の属する技術分野における通常の知識を有する者であれば、本発明の技術的思想を容易に実施できるであろう。本発明について説明するにあたり、本発明に関連する公知技術についての具体的な説明が本発明の要旨を不明にすると判断される場合は詳細な説明を省略する。
以下、添付図面を参照して、本発明の好ましい実施形態について詳細に説明する。図面における同一符号は同一または類似の構成要素に付すものであり、明細書及び請求の範囲に記載されている全ての組み合わせは任意の方法で組み合わせることができるものである。また、特に断らない限り、単数で言及したものが複数であってもよく、単数表現に複数表現が含まれるものと理解されるべきである。
図2は、本発明の一実施形態による代表特性抽出システムを示す図である。同図に示すように、本発明の一実施形態による代表特性抽出システムは、端末50と、代表特性抽出装置100とを含む。端末50は、有線・無線ネットワーク30を介して任意のクエリ画像を代表特性抽出装置100に送信することができ、代表特性抽出装置100は、クエリ画像に含まれる特定商品の代表特性を抽出して端末50に送信することができる。クエリ画像は、市場で取り引きされる物(以下、「商品」という)を含む画像であり、本発明において商品の種類は限定されないが、本明細書においては、説明の便宜上、衣類、靴、かばんなどのファッション商品を中心に説明する。一方、本明細書において、商品の特性とは、商品の色、生地、カテゴリー、パターン、素材などの、商品を説明する際に特徴となる要素を意味するものであり、代表特性とは、当該商品を最もよく表す代表的な色、生地、カテゴリー、パターン、素材などを意味するものである。
図3に示すように、本発明の一実施形態による代表特性抽出装置100は、通信部110と、マップ生成部120と、加重値適用部130と、特性抽出部140とを含み、ラベリング部150と、検索部160と、データベース170とをさらに含んでもよい。
通信部110は、端末50とデータを送受信する。例えば、通信部110は、端末50からクエリ画像を受信することができ、クエリ画像から抽出されたクエリ画像の代表特性を端末50に送信することができる。そのために、通信部110は、TCP/IPプロトコルまたはUDPプロトコルによる有線通信方式及び/または無線通信方式を用いることができる。
マップ生成部120は、特定商品について学習した第1の学習モデルを用いて、クエリ画像内の特定商品に該当するオブジェクトの内部領域に対応するサリエンシーマップ(saliency map)を生成することができる。マップ生成部120は、ディープラーニング(Deep Learning)に基づいて学習した学習モデルによりサリエンシーマップを生成する。
ディープラーニングとは、様々な非線形変換手法の組み合わせにより高レベルの抽象化(abstractions;大量のデータや複雑な資料から核心的な内容や機能を要約する作業)を試みる機械学習(machine learning)アルゴリズムの集合と定義される。ディープラーニングは、人工ニューラルネットワーク(Neural Network)を用いて人間の思考をコンピュータに教える機械学習の一分野と言える。ディープラーニング手法の例としては、ディープニューラルネットワーク(Deep Neural Network)、畳み込みニューラルネットワーク(Convolutional deep Neural Networks;CNN)、回帰型ニューラルネットワーク(Reccurent Neural Nework;RNN)、ディープビリーフネットワーク(Deep Belief Networks;DBM)などが挙げられる。
本発明の一実施形態によるサリエンシーマップを生成する第1の学習モデルとしては、エンコーダ(encoder)・デコーダ(decoder)構造を有する畳み込みニューラルネットワーク(Convolutional Neural Network)学習モデルが用いられてもよい。
畳み込みニューラルネットワークは、最低限の前処理(preprocess)しか必要としないように設計された多層パーセプトロン(multilayer perceptrons)の一種である。畳み込みニューラルネットワークは、1つまたは複数の畳み込み層(convolutional layer)とその上の一般的な人工ニューラルネットワーク層で形成されており、加重値とプーリング層(pooling layer)をさらに活用する。このような構造を有するので、畳み込みニューラルネットワークは、2次元構造の入力データを十分に活用することができる。
畳み込みニューラルネットワークは、入力画像に対して畳み込みとサブサンプリングを交互に行うことにより、入力画像から特徴を抽出する。図6は、畳み込みニューラルネットワーク構造の例を示す図である。図6に示すように、畳み込みニューラルネットワークは、複数の畳み込み層(Convolution layers)と、複数のサブサンプリング層(Subsampling layer、Relu layer、Dropout layer、Max−pooling layer)と、全結合層(Fully−Connected layer)とを含む。畳み込み層は、入力画像に対して畳み込みを行う層であり、サブサンプリング層は、入力画像から地域的に最大値を抽出して2次元画像にマッピングする層であり、局所的な領域をさらに大きくし、サブサンプリングを行う。
畳み込み層は、大きな入力画像をコンパクトで密度の高い表現に変換する特徴を有し、このような高密度の表現は、全結合分類ネットワーク(fully connected classifier network)において画像を分類するのに用いられる。
エンコーダ・デコーダ構造を有する畳み込みニューラルネットワークは、画像分割(image segmentation)のために用いられるものであり、図7に示すように、畳み込み層及びサブサンプリング層を用いて入力データの主な特徴を示すLatent Variableを生成するエンコーダ(encoder)と、逆畳み込み(deconvolution)層を用いて主な特徴からデータを復元するデコーダ(decoder)とから構成される。
本発明は、エンコーダ・デコーダを用いて入力画像と同じ大きさを有する2次元特性マップ(feature map)を生成するが、その入力画像と同じ大きさを有する特性マップがまさにサリエンシーマップ(saliency map)である。サリエンシーマップとは、関心マップや突出マップともいい、ある画像を視覚的関心領域と背景領域に分離して視覚的に表示した画像を意味する。人間はある画像を見る際に特定部分を集中して見るものであるが、色の差が大きい領域や、明るさの差が大きい領域や、輪郭線の特徴が強い領域を先に見る。サリエンシーマップとは、そのように人間が先に見る目立つ領域である視覚的関心領域を表示した画像を意味する。さらに、本発明のマップ生成部120で生成されるサリエンシーマップは、クエリ画像内で特定商品に該当するオブジェクトの内部領域(region)に対応するものである。すなわち、背景とオブジェクト領域が分離されるが、これはオブジェクトの輪郭線(outbound)のみ抽出したり、オブジェクトを含む四角領域(bound box)のみ抽出してオブジェクトを検出する従来技術とは明確な差異がある。
本発明のマップ生成部120で生成されるサリエンシーマップは、オブジェクトの内部領域全体を背景から分離したものであるので、背景の特性(色、質感、パターンなど)とオブジェクトの特性が混在する可能性を完全に排除することができる。
本発明の一実施形態によるサリエンシーマップ生成モデル(第1の学習モデル)のエンコーダは、畳み込み層(convolution layer)、活性化関数層(Relu layer)、ドロップアウト層(dropout layer)、最大プーリング層(Max−pooling layer)を組み合わせることにより生成することができ、デコーダは、アップサンプリング層(upsampling layer)、逆畳み込み層(deconvolution layer)、シグモイド層(sigmoid layer)、ドロップアウト層を組み合わせることにより生成することができる。すなわち、サリエンシーマップ生成モデル125は、エンコーダ・デコーダ構造を有し、畳み込みニューラルネットワーク手法で学習したモデルであると考えられる。
サリエンシーマップ生成モデル125は、特定商品に関する画像をデータセット(dataset)として予め学習したものであり、例えば図8に示すサリエンシーマップ生成モデル125においては、複数のジーンズ画像をデータセットとして予め学習したものであってもよい。一方、クエリ画像に含まれる商品の種類は限定されないので、本発明のサリエンシーマップ生成モデル125は、クエリ画像のサリエンシーマップを生成するために、様々な種類の商品画像を予め学習しているものと考えられる。
また、図3に示すように、加重値適用部130は、オブジェクトの特性抽出のために学習した第2の学習モデル(特性抽出モデル)にサリエンシーマップを加重値として適用することができる。第2の学習モデルは、オブジェクトの特性抽出のためのものであり、画像分類のための畳み込みニューラルネットワーク手法で学習したモデルであってもよく、少なくとも1つの商品画像をデータセットとして学習したものであってもよい。特性抽出モデル145としては、AlexNet、VGG、ResNet、Inception、InceptionResNet MobileNet、SqueezeNet DenseNet、NASNetなどの畳み込みから構成されるニューラルネットワークを用いてもよい。
他の実施形態として、特性抽出モデル145が特定商品の内部領域の色を抽出するために生成されたモデルである場合、特性抽出モデル145は、特定商品のカラー画像、サリエンシーマップ、カラーラベルをデータセットとして学習したモデルであってもよい。また、入力画像としては、RGB、HSV、YCbCrなどのカラーモデルを用いてもよい。
加重値適用部130は、サリエンシーマップの大きさを特性抽出モデル145に含まれる第1の畳み込み層(加重値が適用される畳み込み層)の大きさに変換することにより加重値フィルタを生成し、第1の畳み込み層と加重値フィルタを各チャネルで要素ごとに乗算(element−wise multiplication)する方法で特性抽出モデル145に加重値を適用することができる。前述したように、特性抽出モデル145が複数の畳み込み層で形成されるので、加重値適用部130は、サリエンシーマップの大きさが特性抽出モデル145に含まれる畳み込み層のいずれか(第1の畳み込み層)の大きさに対応するように、サリエンシーマップの大きさをリサイズすることができる。例えば、畳み込み層の大きさが24×24であり、サリエンシーマップの大きさが36×36であれば、サリエンシーマップの大きさを24×24に縮小することができる。次に、特性抽出モデル145は、リサイズされたサリエンシーマップにおいて各ピクセルの値をスケーリング(scaling)することができる。ここで、スケーリングとは、値の範囲を所定の限界内に収めるために整数(倍率)をかけてその値を変更する基準化作業を意味する。例えば、加重値適用部130は、加重値フィルタの値を0から1の間の値にスケーリングし、その大きさが第1の畳み込み層の大きさ(m×n)と同じ大きさとなるm×nの大きさの加重値フィルタを生成することができる。第1の畳み込み層をCONVとし、加重値フィルタをWSMとすると、第1の畳み込み層に加重値フィルタを適用した第2畳み込み層はCONV2=CONV×WSMと計算されるが、これは同じ位置の成分同士をかけることを意味し、畳み込み層においてオブジェクトに該当する領域(図8の白色領域355)がさらに強く活性化される。
特性抽出部140は、加重値を適用した第2の学習モデルにクエリ画像を入力し、オブジェクトの内部領域の特性分類情報を抽出する。加重値を適用した第2の学習モデルにクエリ画像を入力すると、第2の学習モデルの学習に用いられた畳み込みニューラルネットワークによりクエリ画像の特性(色,生地,カテゴリー)などが抽出されるが、第2の学習モデルには加重値が適用されているので、サリエンシーマップから抽出されたオブジェクトの内部領域が強調された特性のみ抽出される。
すなわち、図8の例に示すように、芝生を背景にして立っているジーンズモデルの下半身の画像をクエリ画像として入力すると、マップ生成部120は、ジーンズに該当するオブジェクトの内部領域のみ抽出し、内部領域と背景を区分するサリエンシーマップ350を生成する。サリエンシーマップ350において、ジーンズの内部領域は、背景と明確に分離されている。
加重値適用部130は、サリエンシーマップの大きさを第2の学習モデル145に含まれる加重値が適用される畳み込み層の大きさ(m×n)に変換及びスケーリングすることにより加重値フィルタを生成し、前記畳み込み層とサリエンシーマップを要素ごとに乗算することによりサリエンシーマップを第2の学習モデル145に加重値として適用する。特性抽出部140は、加重値を適用した第2の学習モデル145にクエリ画像300を入力し、オブジェクトの内部領域に該当するジーンズ領域370の特性を抽出する。抽出する特性が色の場合、色番号000066:78%、色番号000099:12%のように、内部領域を構成する色の分類情報が結果として得られる。すなわち、本発明によれば、背景が除去されたジーンズの内部領域の特性分類情報のみ抽出することができるので、抽出した特性の正確度が高く、背景の特性(例えば、クエリ画像300の背景となる芝生の黄緑色など)がオブジェクト特性として挿入されるなどのエラーが著しく減少するという効果が得られる。
ラベリング部150は、特性抽出部140が抽出した特性分類情報を分析し、最も高い確率で存在する特性をオブジェクトの代表特性として設定し、代表特性をクエリ画像にラベリングすることができる。ラベリングしたクエリ画像は、データベース170に保存され、学習モデル生成のための商品画像として用いられたり、検索に用いられる。
検索部160は、特性抽出部140から得たクエリ画像の代表特性を用いて、同じ特性を有する商品画像をデータベース170から検索することができる。例えば、ジーンズの代表色が「群青色」として抽出され、代表生地が「デニム生地」として抽出された場合、ラベリング部150は、クエリ画像130に群青色とデニムをラベリングすることができ、検索部160は、「群青色」と「デニム」でデータベースに保存されている商品画像を検索することができる。
データベース170には少なくとも1つのクエリ画像及び/または商品画像が保存され、データベース170に保存されている商品画像には前記方法により抽出された代表特性がラベリングされて共に保存される。
以下、図4及び図5を参照して、本発明の一実施形態による代表特性抽出方法について説明する。
図4に示すように、サーバは、クエリ画像を受信すると(S100)、特定商品について学習した第1の学習モデルにクエリ画像を適用し、クエリ画像に含まれる特定商品に該当するオブジェクトの内部領域を抽出するサリエンシーマップ(saliency map)を生成する(S200)。サーバは、オブジェクトの特性抽出のために学習した第2の学習モデルにサリエンシーマップを加重値として適用し(S300)、加重値を適用した第2の学習モデルにクエリ画像を入力し、オブジェクトの内部領域の特性分類情報を抽出する(S400)。
ステップ300において、サーバは、サリエンシーマップの大きさを第2の学習モデルに含まれる第1の畳み込み層の大きさに変換し、ピクセル値をスケーリングして加重値フィルタを生成し(S310)、加重値が適用される第1の畳み込み層に加重値フィルタを要素ごとに乗算(element−wise multiplication)する(S330)。
一方、ステップ200でクエリ画像に適用される第1の学習モデルは、エンコーダ(encoder)・デコーダ(decoder)構造を有する畳み込みニューラルネットワーク(Convolutional Neural Network)手法で学習したモデルであってもよく、ステップ300で加重値が適用され、ステップ400でクエリ画像が適用される第2の学習モデルは、標準分類の畳み込みニューラルネットワーク(Convolutional Neural Network)手法で学習したモデルであってもよい。
第2の学習モデルの他の実施形態として、第2の学習モデルは、特定商品の内部領域の色を学習するために、特定商品のカラー画像、サリエンシーマップ及びカラーラベルの少なくとも1つを入力値として学習したモデルであってもよい。
一方、ステップ400の後に、サーバは、特性分類情報を分析し、最も高い確率で存在する特性をオブジェクトの代表特性として設定し、代表特性をクエリ画像にラベリングする(S500)。例えば、クエリ画像にワンピースに該当するオブジェクトが含まれ、特性分類情報としてワンピースの内部領域の色情報が黄色(0.68)、白(0.20)、黒(0.05)などと異なる確率で抽出された場合、サーバは、最も高い確率で存在する黄色をクエリ画像の代表色として設定し、「黄色」をクエリ画像にラベリングする。特性分類情報としてストライプパターン(0.7)、ドットパターン(0.2)などが抽出された場合、「ストライプパターン」が代表パターンとして設定され、前記クエリ画像には「ストライプパターン」がラベリングされる。
本明細書において省略された一部の実施形態は、その実施主体が同一であれば同様に適用することができる。また、前述した本発明は、本発明の属する技術分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲で様々な置換、変形及び変更が可能であるので、前述した実施形態及び添付図面に限定されるものではない。

Claims (8)

  1. サーバが画像内のオブジェクトの代表特性を抽出する方法において、
    クエリ画像を受信するステップと、
    特定商品について学習した第1の学習モデルに前記クエリ画像を適用し、前記クエリ画像に含まれる前記特定商品に該当するオブジェクトの内部領域を抽出するサリエンシーマップ(saliency map)を生成するステップと、
    オブジェクトの特性抽出のために学習した第2の学習モデルに前記サリエンシーマップを加重値として適用するステップと、
    前記加重値を適用した第2の学習モデルに前記クエリ画像を入力し、前記オブジェクトの内部領域の特性分類情報を抽出するステップとを含む、代表特性抽出方法。
  2. 前記サリエンシーマップを加重値として適用するステップは、
    前記サリエンシーマップの大きさを前記第2の学習モデルに含まれる第1の畳み込み層の大きさに変換及びスケーリングして加重値フィルタを生成するステップと、
    前記第1の畳み込み層に前記加重値フィルタを要素ごとに乗算(element−wise multiplication)するステップとを含む、請求項1に記載の代表特性抽出方法。
  3. 前記第1の学習モデルは、エンコーダ(encoder)・デコーダ(decoder)構造を有する畳み込みニューラルネットワーク(Convolutional Neural Network)学習モデルであることを特徴とする、請求項1に記載の代表特性抽出方法。
  4. 前記第2の学習モデルは、標準分類の畳み込みニューラルネットワーク(Convolutional Neural Network)学習モデルであることを特徴とする、請求項1に記載の代表特性抽出方法。
  5. 前記第2の学習モデルは、前記特定商品の内部領域の色を学習するために、前記特定商品のサリエンシーマップと、前記特定商品のカラー画像、サリエンシーマップ及びカラーラベルの少なくとも1つとをデータセットとして適用した畳み込みニューラルネットワーク学習モデルであることを特徴とする、請求項1に記載の代表特性抽出方法。
  6. 前記特性分類情報を分析し、最も高い確率で存在する特性を前記オブジェクトの代表特性として設定するステップと、
    前記代表特性を前記クエリ画像にラベリングするステップとをさらに含む、請求項1に記載の代表特性抽出方法。
  7. 請求項1〜6に記載の方法のいずれかの方法を行うためにコンピュータ可読媒体に保存された代表特性抽出アプリケーションプログラム。
  8. クエリ画像を受信する通信部と、
    特定商品について学習した第1の学習モデルを用いて、前記クエリ画像内の前記特定商品に該当するオブジェクトの内部領域に対応するサリエンシーマップ(saliency map)を生成するマップ生成部と、
    オブジェクトの特性抽出のために学習した第2の学習モデルに前記サリエンシーマップを加重値として適用する加重値適用部と、
    前記加重値を適用した第2の学習モデルに前記クエリ画像を入力し、前記オブジェクトの内部領域の特性分類情報を抽出する特性抽出部とを含む、代表特性抽出装置。
JP2020564337A 2018-05-18 2019-05-17 画像内のオブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラム Pending JP2021524103A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180056826A KR102102161B1 (ko) 2018-05-18 2018-05-18 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램
KR10-2018-0056826 2018-05-18
PCT/KR2019/005935 WO2019221551A1 (ko) 2018-05-18 2019-05-17 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
JP2021524103A true JP2021524103A (ja) 2021-09-09

Family

ID=68540506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564337A Pending JP2021524103A (ja) 2018-05-18 2019-05-17 画像内のオブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US20210256258A1 (ja)
JP (1) JP2021524103A (ja)
KR (1) KR102102161B1 (ja)
CN (1) CN112154451A (ja)
SG (1) SG11202011439WA (ja)
WO (1) WO2019221551A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022191412A (ja) * 2022-03-02 2022-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置
WO2023100929A1 (ja) * 2021-12-02 2023-06-08 株式会社カネカ 情報処理装置、情報処理システムおよび情報処理方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168713B (zh) * 2018-12-14 2024-09-06 富士胶片株式会社 小批量学习装置及其工作程序、工作方法及图像处理装置
US11755948B2 (en) * 2019-12-18 2023-09-12 Google Llc Attribution and generation of saliency visualizations for machine-learning models
US11450021B2 (en) 2019-12-30 2022-09-20 Sensetime International Pte. Ltd. Image processing method and apparatus, electronic device, and storage medium
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
US11297244B2 (en) * 2020-02-11 2022-04-05 Samsung Electronics Co., Ltd. Click-and-lock zoom camera user interface
CN111317653B (zh) * 2020-02-24 2023-10-13 江苏大学 一种交互式盲人智能辅助装置及方法
CN111368893B (zh) * 2020-02-27 2023-07-25 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
KR20210111117A (ko) 2020-03-02 2021-09-10 김종명 업로드된 미디어로부터 추출된 이미지 기반의 상품 거래 시스템
JP7444235B2 (ja) * 2020-03-03 2024-03-06 日本電気株式会社 注意機構、画像認識システム、特徴変換方法およびプログラム
CN111583293B (zh) * 2020-05-11 2023-04-11 浙江大学 一种面向多色双光子图像序列的自适应图像分割方法
KR20210141150A (ko) 2020-05-15 2021-11-23 삼성에스디에스 주식회사 이미지 분류 모델을 이용한 이미지 분석 방법 및 장치
WO2022025568A1 (ko) * 2020-07-27 2022-02-03 옴니어스 주식회사 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR102622779B1 (ko) * 2020-07-27 2024-01-10 옴니어스 주식회사 상품 이미지에 속성 관련 키워드를 부여하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
WO2022025570A1 (ko) * 2020-07-27 2022-02-03 옴니어스 주식회사 상품 이미지에 속성 관련 키워드를 부여하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR102437193B1 (ko) 2020-07-31 2022-08-30 동국대학교 산학협력단 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법
CN112182262B (zh) * 2020-11-30 2021-03-19 江西师范大学 一种基于特征分类的图像查询方法
KR20220114904A (ko) 2021-02-09 2022-08-17 동서대학교 산학협력단 웹서버 기반으로 객체 추출 서비스 방법
US20230095137A1 (en) * 2021-09-30 2023-03-30 Lemon Inc. Social networking based on asset items
US11763496B2 (en) 2021-09-30 2023-09-19 Lemon Inc. Social networking based on asset items
US20240212311A1 (en) * 2021-10-08 2024-06-27 Rakuten Group, Inc. Information processing apparatus, information processing method, and non-transitory computer readable medium
KR102471796B1 (ko) * 2022-07-20 2022-11-29 블루닷 주식회사 세일리언시 맵을 이용한 인지적 비디오 전처리 방법 및 시스템
WO2024085352A1 (ko) * 2022-10-18 2024-04-25 삼성전자 주식회사 인공 지능 모델의 학습을 위한 훈련용 데이터를 생성하는 방법 및 전자 장치
CN116071609B (zh) * 2023-03-29 2023-07-18 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法
CN116993996B (zh) * 2023-09-08 2024-01-12 腾讯科技(深圳)有限公司 对图像中的对象进行检测的方法及装置
KR102673347B1 (ko) * 2023-12-29 2024-06-07 국방과학연구소 데이터 생성 방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017516197A (ja) * 2015-03-31 2017-06-15 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 交通標識を認識する方法及び装置
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
JP2017169140A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165407B1 (en) * 2006-10-06 2012-04-24 Hrl Laboratories, Llc Visual attention and object recognition system
KR101136330B1 (ko) * 2009-12-02 2012-04-20 주식회사 래도 노면 상태 판별 장치 및 노면 상태 판별 방법
WO2011152893A1 (en) * 2010-02-10 2011-12-08 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
KR101715036B1 (ko) * 2010-06-29 2017-03-22 에스케이플래닛 주식회사 객체 인식을 통한 상품 분류 검색 및 쇼핑 정보 제공 서비스 방법, 서버 및 시스템
US20140254922A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Salient Object Detection in Images via Saliency
KR101513931B1 (ko) * 2014-01-29 2015-04-21 강원대학교산학협력단 구도의 자동보정 방법 및 이러한 구도의 자동보정 기능이 탑재된 영상 장치
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
KR101801846B1 (ko) * 2015-08-26 2017-11-27 옴니어스 주식회사 상품 영상 검색 및 시스템
US10437878B2 (en) * 2016-12-28 2019-10-08 Shutterstock, Inc. Identification of a salient portion of an image
US11042586B2 (en) * 2016-12-29 2021-06-22 Shutterstock, Inc. Clustering search results based on image composition
CN107705306B (zh) * 2017-10-26 2020-07-03 中原工学院 一种基于多特征矩阵低秩分解的织物疵点检测方法
CN107766890B (zh) * 2017-10-31 2021-09-14 天津大学 一种细粒度识别中判别性图块学习的改进方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017516197A (ja) * 2015-03-31 2017-06-15 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 交通標識を認識する方法及び装置
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
JP2017169140A (ja) * 2016-03-17 2017-09-21 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100929A1 (ja) * 2021-12-02 2023-06-08 株式会社カネカ 情報処理装置、情報処理システムおよび情報処理方法
JP2022191412A (ja) * 2022-03-02 2022-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置
JP7403605B2 (ja) 2022-03-02 2023-12-22 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置

Also Published As

Publication number Publication date
KR20190134933A (ko) 2019-12-05
US20210256258A1 (en) 2021-08-19
KR102102161B1 (ko) 2020-04-20
CN112154451A (zh) 2020-12-29
SG11202011439WA (en) 2020-12-30
WO2019221551A1 (ko) 2019-11-21

Similar Documents

Publication Publication Date Title
JP2021524103A (ja) 画像内のオブジェクトの代表特性を抽出する方法、装置及びコンピュータプログラム
JP6849824B2 (ja) セルフィーを撮影するためにユーザをガイドするためのシステム及び方法
Buslaev et al. Fully convolutional network for automatic road extraction from satellite imagery
CN110059741B (zh) 基于语义胶囊融合网络的图像识别方法
CN112241731B (zh) 一种姿态确定方法、装置、设备及存储介质
CN110610509B (zh) 可指定类别的优化抠图方法及系统
CN108280426B (zh) 基于迁移学习的暗光源表情识别方法及装置
CN108229559B (zh) 服饰检测方法、装置、电子设备、程序和介质
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
CN107169508B (zh) 一种基于融合特征的旗袍图像情感语义识别方法
Chavan et al. Real time emotion recognition through facial expressions for desktop devices
CN110827373B (zh) 广告图片生成方法、装置以及存储介质
CN115810197A (zh) 一种多模态电力表单识别方法及装置
Lipi et al. Static-gesture word recognition in Bangla sign language using convolutional neural network
Nikam et al. Bilingual sign recognition using image based hand gesture technique for hearing and speech impaired people
CN109064431B (zh) 一种图片亮度调节方法、设备及其存储介质
Carneiro et al. Static gestures recognition for Brazilian sign language with kinect sensor
JP2023508641A (ja) データ増強基盤事物分析モデル学習装置及び方法
CN115661680B (zh) 卫星遥感图像处理方法
KR101484003B1 (ko) 얼굴 분석 평가 시스템
CN111047632A (zh) 一种指甲图像的图色处理方法和装置
EP3985620B1 (en) Fine-grained classification of retail products
JP7362924B2 (ja) データ増強基盤空間分析モデル学習装置及び方法
CN111062862A (zh) 基于颜色的数据增强方法和系统及计算机设备和存储介质
Xu et al. Uncovering the Metaverse within Everyday Environments: a Coarse-to-Fine Approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220218

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230509