JP2017538196A - 商品画像のセグメンテーション方法および装置 - Google Patents

商品画像のセグメンテーション方法および装置 Download PDF

Info

Publication number
JP2017538196A
JP2017538196A JP2017522490A JP2017522490A JP2017538196A JP 2017538196 A JP2017538196 A JP 2017538196A JP 2017522490 A JP2017522490 A JP 2017522490A JP 2017522490 A JP2017522490 A JP 2017522490A JP 2017538196 A JP2017538196 A JP 2017538196A
Authority
JP
Japan
Prior art keywords
image
product
product image
body position
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017522490A
Other languages
English (en)
Other versions
JP6669741B2 (ja
Inventor
リン,ハイルー
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2017538196A publication Critical patent/JP2017538196A/ja
Application granted granted Critical
Publication of JP6669741B2 publication Critical patent/JP6669741B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、商品画像のセグメンテーション方法および装置を開示する。セグメンテーション方法は、商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行することと、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択することであって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、選択することと、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行することとを含む。本発明では、画像セグメンテーション前に最初に本体位置に応じて画像が分類され、画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。

Description

技術分野
本発明は、画像処理の分野に関し、特に商品画像のセグメンテーション技術に関する。
背景
商品検索および商品選択等の事業サービスで利用する技術の急速な発展に伴い、多くの場合、商品本体を商品画像からセグメンテーションすることが必要となる。現在、例えば重要領域検出に基づくセグメンテーション技術、顔検出に基づくセグメンテーション技術、画像接続性に基づくセグメンテーション技術等、いくつかの画像セグメンテーション技術が既に提案されている。しかし、これらのセグメンテーション技術のいずれも衣服画像のセグメンテーションに適用できない。重要領域検出に基づくセグメンテーション技術が良好なセグメンテーション効果を示すのは、画像が明瞭な背景および単純なレイアウトを有している場合のみであるが、大多数の商品画像は複雑な背景または複雑なレイアウトを有している。顔検出に基づくセグメンテーション技術は、ファッションモデルがおり、そのファッションモデルの顔が明瞭で単純な姿勢をとっている状況に適しているが、多くの商品画像では、ファッションモデルが写っていないか、またはファッションモデルが複雑な姿勢をとっている。画像接続性に基づくセグメンテーション技術は、画像が明瞭な背景および単純なレイアウトを有し、かつ衣服が殆どテクスチャを有していない状況に適しているが、大多数の商品画像は複雑な背景または複雑なレイアウトを有している。従って、これらのセグメンテーション方法では画像セグメンテーションの満足すべき効果が実現困難であることが分かる。
概要
本発明の目的は、商品画像から商品本体を正確にセグメンテーションすることができる商品画像のセグメンテーション方法および装置を提案することである。
上述の技術的課題を解決するために、本発明の実施形態は、画像分類を実行するように最初に画像分類器をトレーニングし、次いで画像分類の結果に応じて商品本体をセグメンテーションする商品画像のセグメンテーション方法を開示する。本方法は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行するステップと、
画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択するステップであって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場(weight distribution field)を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、ステップと、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するステップと
を含む。
本発明の実施形態はまた、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択する重み構成装置であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置と
を含む、商品画像のセグメンテーション装置を開示する。
従来技術と比較して、本発明の実施形態の主な差異および利点は以下の通りである。
第1に、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。
更に、深層学習法が利用される。すなわち、分類が合理的であり、かつ分類効果も良好であるように、画像分類器としての役割を果たすように畳み込みニューラルネットワークがトレーニングされる。
更に、畳み込みニューラルネットワークはトレーニング集合に基づいてトレーニングされ、トレーニング集合を構築する過程において、分類前にクラスタリングが実行され、それは、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。
更に、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、画像セグメンテーションテンプレートの重み分布場が構成され、従って、より正確なセグメンテーション結果を実現することが可能である。
本発明の第1の実施形態における商品画像のセグメンテーション方法の概略フローチャートである。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、CNNネットワークの概略構造図である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する概略フローである。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のHOG機能抽出の概略構成図である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。 本発明の第1の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。 本発明の第2の実施形態における商品画像のセグメンテーション装置の概略構造図である。
詳細な説明
以下の説明において、本出願に対する読者の理解を深めるために多くの技術的詳細が提示される。しかし、当業者は、本出願に添付される請求項に記載された技術的解決策がこれらの技術的詳細なしに実施可能であり、各種の変更形態および変形形態が以下の実施形態に基づくことを理解するであろう。
本発明の上述の目的、技術的解決策および利点を分かり易くするために、本発明の実施形態について添付の図面を参照しながら以下に詳細に記述する。
本発明の第1の実装形態は商品画像のセグメンテーション方法に関する。図1は、商品画像のセグメンテーション方法の概略フローチャートである。
具体的には、本セグメンテーション方法において、画像分類の結果に応じて商品本体をセグメンテーションする。図1に示すように、商品画像のセグメンテーション方法は以下のステップを含む。
ステップS101において、商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する。
その後、処理フローはステップS102へ進み、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す。
その後、処理フローはステップS103へ進み、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションステップを実行する。
その後、フローは終了する。
上述のステップで分かるように、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。
ステップS101で実行される画像分類において、画像分類は深層学習法により実行され、分類は合理的かつ良好な効果を有する。当然のことながら、他の画像分類方法も本明細書において非限定的に適用可能である。
本明細書で用いる深層学習法は、人工ニューラルネットワークに関するものであり、特に、画像分類器としての役割を果たすように畳み込みニューラルネットワーク(CNNネットワーク)をトレーニングすることに関する。
畳み込みニューラルネットワーク以外にも、例えば、自動エンコーダ、疎符号化、制限付きボルツマン機械(RBM)、ディープビリーフネットワーク(DBN)等、他のあらゆる深層学習法が適用できることが理解され得る。
画像分類器としてCNNネットワークを用いる場合、CNNネットワークは、深層ネットワークであり、例示的構造として図2に示すように、5つの畳み込み層、2つの完全接続層、および1つのソフトマックス層を含む8層構造である。これに加え、CNNネットワークはまた、例えば、ダウンサンプリング層、または異なる数の畳み込み層等を含む別の構造内にあってもよいことが理解され得る。
上述のCNNネットワークをトレーニングするために、トレーニング集合が最初に構築される。図3は、トレーニング集合を構築する例示的なフローを示す。このフローにおける各ステップは、実際の要件に応じて調整可能であり、フロー全体が図3に示す態様に限定されないことが理解され得る。
図3に示すように、トレーニング集合の構築は以下のステップを含む。
ステップS201において商品画像を取得する。
その後、ステップS202へ進み、取得した商品画像からの複数の特徴の抽出を実行する。
その後、ステップS203へ進み、抽出された複数の特徴に応じて、取得した商品画像をクラスタリングし、クラスタの数はAである。
その後、ステップS204へ進み、A個のクラスタの商品画像を確認し、商品画像内の本体位置に応じて、クラスタのうちのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および他のクラスタにおける画像が各種の異なる本体位置クラスに分類され、本体位置クラスの数はBであり、AおよびBは両方とも整数であり、かつA>B≧2である。
その後、フローは終了する。
理解を容易にするために、上述のステップに従ってトレーニング集合を構築する例を以下に示す。本例において、処理対象は衣服商品画像である。本例は一例に過ぎず、本発明がこれに限定されることなく他の商品画像にも適用可能であることが理解され得る。
最初に、クローラーを用いて商品画像をダウンロードする。本例では、Taobaoプラットフォーム上の女性用ドレスのカテゴリのデータをダウンロードし、データの数は100万個のオーダー、すなわちビッグデータである。画像をダウンロードし、次いて後続処理のために標準化することにより、全ての画像を同じサイズ、例えば解像度256×256に縮尺する。
次に、データの2つの特徴、すなわち有向勾配(HOG)特徴のヒストグラムおよび画像サイズ特徴を抽出する。図4に示すように、例えばHOG特徴の抽出に際して、1ブロックのサイズが96に設定され、ブロックはスライドしながら画像を横断的に移動し、ブロックの距離は40に設定され、各ブロックは4つのセルに分割されているため、セルのサイズは48に設定され、各セルの方向数は9に設定されている。簡単に言えば、HOG特徴の抽出は、画像(x、y、z(グレイスケール)三次元画像として撮像)をグレー階調化し、次いでそれを4つの小セルに分割して、各セル内の各画素の勾配(すなわち方位)を計算して、最後に勾配のヒストグラム(異なる勾配の数)を作成し、これにより各セルのHOG記述子を形成することができる。複数の画像が画像のHOG特徴およびサイズ特徴に応じてクラスタリングされて、A個のクラスタが得られ、Aは例えば512である。図5〜9は、クラスタリング結果の画像のいくつかの例である。
最後に、複数の画像がクラスタリング結果に応じて分類される。A個のクラスタの商品画像を確認することにより、商品画像内の本体位置に応じて、大多数の場合に、クラスタのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および少数の場合に、他のクラスタにおける画像が各種の異なる本体位置クラスに分類される。本体位置クラスの数はBであり、Bは例えば5である。5つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。これらのクラスの例を図10〜14に示す。図10は複雑な多体画像、図11は二体画像、図12は単体標準画像、図13は単体標準画像よりも狭い画像、および図14は単体標準画像よりも広い画像である。
AおよびBは両方とも整数であり、かつA>B≧2であり、先行する数により制限されない。トレーニング集合を構築する処理において、クラスタリングは分類前に実行されるため、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。
ここで上述のステップS102について具体的に記述する。ステップS102において、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場は、商品画像内の各画素が前景または背景に属する確率を表す。
例えば、5つのクラスがあり、5つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。動作は以下のように実行される。
複雑な多体画像の場合、画像セグメンテーションは実行されない。
二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像の場合、本体位置テンプレートは各々定義されており、本体位置テンプレートの位置パラメータは互いに異なる。
本体位置テンプレート用に構成された重み分布場の設計原理は、中心に近いほど、衣服本体である確率が大きく(すなわち重みが大きい)、中心から遠いほど、衣服本体である確率が小さい(すなわち重みが小さい)。従来の重み分布構成では、画素点の分布はそれらの色に応じて決定されるため、良好なセグメンテーション効果が得られないのに対し、本発明では、分布が本体位置により決定されるため、セグメンテーション効果が大幅に向上する。
各画素点pに対して、例えば画素が前景または背景に属する確率、すなわち画素が商品本体である確率が以下の定義式により定義される。
Figure 2017538196

ここで、d(p)はpの画像中心点への距離測定値である。
異なる種類の画像を処理するために、異なる本体位置テンプレートに対して位置パラメータa、bを導入する。
具体的には
Figure 2017538196

であり、ここで、centerは画像の中心点を指し、center.xおよびcenter.yは中心点の水平および垂直座標を表す。p.xおよびp.yは各々、点pの水平および垂直座標を表す。
位置パラメータは例えば以下のように設定することができる。
単体標準画像の場合、a=0.3、b=0.8に構成され、
単体標準画像よりも狭い画像の場合、a=0.2、b=0.79に構成され、
単体標準画像よりも広い画像の場合、a=0.4、b=0.81に構成され、および
二体画像の場合、最初に画像の左半分が撮像され、次いで単体標準画像として処理される。
ここで上述のステップS103について詳述する。ステップS103において、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行する。例えばGraph Cutsを用いて画像をセグメンテーションする。
Graph Cuts以外の他の画像セグメンテーション方法、例えばGrabCutも本発明に適用できることが理解され得る。
Graph Cutsによる画像セグメンテーションの実行について詳述する。
各画像に対して、例えば解像度が256×256の場合、256×256個のセルを有する画像が生成され、各画素点位置は通常のノードであり、各通常のノードは各々、上下左右側が4つのノードに接続されたエッジを有している。各エッジは重みを有し、エッジのそのような重みは通常の重みであり、画素点同士の類似点に応じて構成されている。
一方が前景ノード、他方が背景ノードである2つの仮想ノードを画像に追加する。各々の通常ノードは前景ノードに接続され、かつ背景ノードにも接続されている。前景ノードに接続された通常ノードの前方接続線の重み、および背景ノードに接続された通常ノードの後方接続線の重みは、ステップS102で重み分布場に応じて計算することにより得られる。すなわち、この重み分布場は、商品画像内の各画素が前景(商品本体)または背景に属する確率を表す。
画像および重みが構成されると、画像は、合理的な方法で2つの部分に分割され、前景ノードに接続された部分が商品本体である。
本発明の方法の各実装形態は、ソフトウェア、ハードウェア、ファームウェア等により実現可能である。本発明がソフトウェア、ハードウェア、またはファームウェアのいずれにより実現されるかに拘わらず、命令コードを任意の種類のコンピュータのアクセス可能なメモリ(例えば、永久または変更可能、揮発性または不揮発性、固体または非固体、固定または交換可能な媒体等)に保存することができる。同様に、メモリは例えばプログラム可能アレイ論理(略してPAL)、ランダムアクセスメモリ(略してRAM)、プログラム可能読み出し専用メモリ(略してPROM)、読み出し専用メモリ(略してROM)、電気的消去可能プログラム可能ROM(略してEEPROM)、ディスク、光ディスク、デジタル多用途ディスク(略してDVD)等であってよい。
本発明の第2の実装形態は、商品画像のセグメンテーション装置に関する。図15は、商品画像のセグメンテーション装置の概略構造図である。図15の構造に限定されることなく、実際の要件に応じて本発明の現実の構造に対して必要な調整を行ってよい。
具体的には、商品画像のセグメンテーション装置は、画像分類の結果に応じて商品本体をセグメンテーションすることができる。図15に示すように、セグメンテーション装置100は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置101と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対するそれぞれの本体位置テンプレートを選択する重み構成装置102であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置102と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置103と
を含む。
第1の実装形態は、本実装形態に対応する方法実装形態であり、本実装形態は第1の実装形態と協同して実施可能である。第1の実装形態で言及した関連技術の詳細は依然として本実装形態で有効であり、反復を避けるために以下では記述しない。従って、本実装形態で言及する関連技術の詳細も第1の実装形態に適用可能である。
必須ではないが選択肢として、セグメンテーション装置100は、トレーニング集合を構築するトレーニング集合構築装置104(図15に示さず)を更に含み、トレーニング集合構築装置により構築されたトレーニング集合が、分類装置をトレーニングするために使用される。
必須ではないが選択肢として、セグメンテーション装置100は、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、重み分布場を構成する重み分布場構成装置105(図15に示さず)を更に含む。
本発明の装置実施形態で言及した各種装置が全て論理装置であってよく、物理的に論理装置は物理装置であってよく、また物理装置の一部であってもよく、更に複数の物理装置の組合せで実装されてもよいことに注意されたい。これらの論理装置の物理的実装形態自体はそれほど重要でないが、これらの論理装置により実現される機能の組合せは、本発明で提案する技術的課題を解決するうえで重要である。また、本発明の新規性を強調するために、本発明の上述の各種装置実施形態では、本発明で提案する技術的課題と密接に関連しない装置について紹介していないが、これは、上述の装置実施形態に他の装置が一切存在しないという意味ではない。
本特許の請求項および記述において、第1、第2等の関係用語は、ある主体または動作を別の主体または動作から区別するために用いているに過ぎず、これらの主体または動作間に何らかの実際の関係または順序が存在することを要求または示唆するものではないことに注意されたい。更に、用語「包含する」、「含む」、またはこれらの任意の変化形は非排他的包含を意味し、従って、要素のリストを含む処理、方法、部品、または装置が必ずしもその要素に限定されず、明示的に列挙しない他の要素を含んでいてよく、または更にそのような処理、方法、部品、または装置に固有の要素を含む。別途限定しない限り、「1つ(a)/1つ(an)を含む」によって限定された要素は、その要素を含む処理、方法、部品、または装置に同じ要素が別途存在することを排除しない。
本発明について、本発明のいくつかの好適な実施形態を参照しながら図示および説明してきたが、当業者は、本発明の範囲から逸脱することなく、本発明の形式および詳細に対して各種の変更形態がなされ得ることが理解されるであろう。

Claims (12)

  1. 商品画像のセグメンテーション方法であって、
    商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行するステップと、
    前記画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択するステップであって、前記本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、前記本体位置テンプレートの各々が前記所定の位置パラメータに応じた重み分布場を有して構成され、前記重み分布場が、前記商品画像内の各画素が前景または背景に属する確率を表す、ステップと、
    前記商品画像から商品本体をセグメンテーションするために、前記選択された本体位置テンプレートの前記重み分布場に応じて画像セグメンテーションを実行するステップと
    を含むことを特徴とする、方法。
  2. 前記商品画像が衣服商品画像であることを特徴とする、請求項1に記載の商品画像のセグメンテーション方法。
  3. 前記画像分類が深層学習法により実行され、前記深層学習法が、画像分類器としての役割を果たすように畳み込みニューラルネットワークをトレーニングするステップを含むことを特徴とする、請求項2に記載の商品画像のセグメンテーション方法。
  4. 前記畳み込みニューラルネットワークが少なくとも5つの畳み込み層、2つの完全接続層、および1つのソフトマックス層を含むことを特徴とする、請求項3に記載の商品画像のセグメンテーション方法。
  5. 前記畳み込みニューラルネットワークがトレーニング集合に基づいてトレーニングされることを特徴とする、請求項3に記載の商品画像のセグメンテーション方法。
  6. 前記トレーニング集合が、
    商品画像を取得するステップと、
    前記取得された商品画像からの複数の特徴の抽出を実行するステップと、
    前記抽出された複数の特徴に応じて、前記取得された商品画像をクラスタリングするステップであって、クラスタの数がAである、ステップと、
    前記A個のクラスタの前記商品画像を確認するステップであって、前記商品画像内の前記本体位置に応じて、前記クラスタのいくつかにおける全ての前記画像が同じ本体位置クラスに分類され、および他のクラスタにおける画像が各種の異なる本体位置クラスに分類され、前記本体位置クラスの数がBである、ステップと
    に従って構築され、AおよびBが両方とも整数であり、かつA>B≧2であることを特徴とする、請求項5に記載の商品画像のセグメンテーション方法。
  7. 前記複数の特徴が、少なくとも有向勾配特徴およびサイズ特徴のヒストグラムを含むことを特徴とする、請求項6に記載の商品画像のセグメンテーション方法。
  8. 前記本体位置クラスが、少なくとも以下のクラス:複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像のうちの1つまたはその組合せを含むことを特徴とする、請求項6に記載の商品画像のセグメンテーション方法。
  9. 前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成するステップを更に含むことを特徴とする、請求項1に記載の商品画像のセグメンテーション方法。
  10. 商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置と、
    前記分類装置からの前記画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択する重み構成装置であって、前記本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、前記本体位置テンプレートの各々が前記所定の位置パラメータに応じた重み分布場を有して構成され、前記重み分布場が、前記商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置と、
    前記商品画像から商品本体をセグメンテーションするために、前記選択された本体位置テンプレートの前記重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置と
    を含む、商品画像のセグメンテーション装置。
  11. トレーニング集合を構築するトレーニング集合構築装置を更に含み、
    前記トレーニング集合構築装置により構築された前記トレーニング集合が、前記分類装置をトレーニングするために使用されることを特徴とする、請求項10に記載の商品画像のセグメンテーション装置。
  12. 前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成する重み分布場構成装置を更に含むことを特徴とする、請求項10に記載の商品画像のセグメンテーション装置。
JP2017522490A 2014-10-29 2015-10-22 商品画像のセグメンテーション方法および装置 Active JP6669741B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410597626.5 2014-10-29
CN201410597626.5A CN105608459B (zh) 2014-10-29 2014-10-29 商品图片的分割方法及其装置
PCT/CN2015/092509 WO2016066042A1 (zh) 2014-10-29 2015-10-22 商品图片的分割方法及其装置

Publications (2)

Publication Number Publication Date
JP2017538196A true JP2017538196A (ja) 2017-12-21
JP6669741B2 JP6669741B2 (ja) 2020-03-18

Family

ID=55856594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017522490A Active JP6669741B2 (ja) 2014-10-29 2015-10-22 商品画像のセグメンテーション方法および装置

Country Status (4)

Country Link
US (1) US10297029B2 (ja)
JP (1) JP6669741B2 (ja)
CN (1) CN105608459B (ja)
WO (1) WO2016066042A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
CN107545271B (zh) * 2016-06-29 2021-04-09 阿里巴巴集团控股有限公司 图像识别方法、装置和系统
US10453200B2 (en) 2016-11-02 2019-10-22 General Electric Company Automated segmentation using deep learned priors
CN107463945B (zh) * 2017-07-12 2020-07-10 浙江大学 一种基于深度匹配网络的商品种类识别方法
CN108447064B (zh) * 2018-02-28 2022-12-13 苏宁易购集团股份有限公司 一种图片处理方法及装置
US10922585B2 (en) * 2018-03-13 2021-02-16 Recogni Inc. Deterministic labeled data generation and artificial intelligence training pipeline
CN109977983B (zh) * 2018-05-07 2021-06-08 广州逗号智能零售有限公司 获得训练图像的方法及装置
US10878570B2 (en) * 2018-07-17 2020-12-29 International Business Machines Corporation Knockout autoencoder for detecting anomalies in biomedical images
CN109146885B (zh) * 2018-08-17 2021-08-17 深圳蓝胖子机器智能有限公司 图像分割方法、设备和计算机可读存储介质
CN109767397B (zh) 2019-01-09 2022-07-12 三星电子(中国)研发中心 一种基于人工智能的图像优化方法和系统
RU2698157C1 (ru) * 2019-02-12 2019-08-22 Акционерное общество Научно-производственный центр "Электронные вычислительно-информационные системы" (АО НПЦ "ЭЛВИС") Система поиска нарушений в порядке расположения объектов
CN112466035B (zh) * 2019-09-06 2022-08-12 图灵通诺(北京)科技有限公司 基于视觉和重力感应的商品识别方法、装置和系统
KR102429534B1 (ko) * 2020-11-02 2022-08-04 주식회사 루닛 대상 이미지에 대한 추론 작업을 수행하는 방법 및 시스템

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0532052B1 (en) * 1991-09-12 2008-02-13 FUJIFILM Corporation Method for extracting object images and method for detecting movements thereof
US6728404B1 (en) * 1991-09-12 2004-04-27 Fuji Photo Film Co., Ltd. Method for recognizing object images and learning method for neural networks
AU5603300A (en) 1999-06-11 2001-01-02 Pulsent Corporation Method and apparatus for digital image segmentation
IL146978A0 (en) 1999-06-11 2002-08-14 Pulsent Corp Method and apparatus for digital image segmentation
US6973213B2 (en) 2001-10-12 2005-12-06 Xerox Corporation Background-based image segmentation
US6922485B2 (en) 2001-12-06 2005-07-26 Nec Corporation Method of image segmentation for object-based image retrieval
KR20050067438A (ko) 2002-11-19 2005-07-01 코닌클리케 필립스 일렉트로닉스 엔.브이. 템플릿 예측을 사용한 이미지 세그먼테이션
US7606417B2 (en) 2004-08-16 2009-10-20 Fotonation Vision Limited Foreground/background segmentation in digital images with differential exposure calculations
US7376272B2 (en) * 2004-06-14 2008-05-20 Xerox Corporation Method for image segmentation to identify regions with constant foreground color
KR20060007901A (ko) * 2004-07-22 2006-01-26 삼성전자주식회사 영상으로부터의 중요 객체 추출 장치 및 방법
US8913830B2 (en) 2005-01-18 2014-12-16 Siemens Aktiengesellschaft Multilevel image segmentation
WO2006104468A1 (en) 2005-03-31 2006-10-05 Agency For Science, Technology And Research Method and apparatus for image segmentation
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7676081B2 (en) 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7379593B2 (en) 2005-12-21 2008-05-27 Xerox Corporation Method for image segmentation from proved detection of background and text image portions
US8417033B2 (en) 2007-04-27 2013-04-09 Hewlett-Packard Development Company, L.P. Gradient based background segmentation and enhancement of images
WO2010019925A1 (en) * 2008-08-15 2010-02-18 Brown Technology Partnerships Method and apparatus for estimating body shape
US8515171B2 (en) 2009-01-09 2013-08-20 Rochester Institute Of Technology Methods for adaptive and progressive gradient-based multi-resolution color image segmentation and systems thereof
EP2435983A4 (en) * 2009-05-28 2017-08-23 Hewlett-Packard Development Company, L.P. Image processing
GB2473503B (en) * 2009-09-15 2015-02-11 Metail Ltd System and method for image processing
CN101847264B (zh) * 2010-05-28 2012-07-25 北京大学 基于互补显著度图的图像兴趣物体自动提取方法及系统
US8861873B2 (en) * 2010-06-01 2014-10-14 Hewlett-Packard Development Company, L.P. Image clustering a personal clothing model
WO2011152821A1 (en) * 2010-06-01 2011-12-08 Hewlett-Packard Development Company, L.P. Clustering images
CN101950400B (zh) * 2010-10-09 2014-04-16 姚建 网络购物导航方法领域的图片检索方法
US20130259374A1 (en) * 2012-03-29 2013-10-03 Lulu He Image segmentation
CN102779270B (zh) * 2012-06-21 2015-03-25 西南交通大学 一种针对购物图像搜索的目标衣物图像提取方法
CN102842135A (zh) * 2012-07-17 2012-12-26 杭州淘淘搜科技有限公司 一种商品图像主体区域检测方法
CN103577475B (zh) * 2012-08-03 2018-01-30 阿里巴巴集团控股有限公司 一种图片自动化分类方法、图片处理方法及其装置
CN103578098B (zh) * 2012-08-07 2017-05-10 阿里巴巴集团控股有限公司 在商品图片中提取商品主体的方法和装置
CN103679164A (zh) * 2012-09-21 2014-03-26 阿里巴巴集团控股有限公司 一种基于移动终端的标志识别处理方法和系统
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置

Also Published As

Publication number Publication date
JP6669741B2 (ja) 2020-03-18
CN105608459A (zh) 2016-05-25
WO2016066042A1 (zh) 2016-05-06
CN105608459B (zh) 2018-09-14
US10297029B2 (en) 2019-05-21
US20170236292A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
JP6669741B2 (ja) 商品画像のセグメンテーション方法および装置
Wei et al. Toward automatic building footprint delineation from aerial images using CNN and regularization
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
JP6897335B2 (ja) 学習プログラム、学習方法および物体検知装置
JP6330385B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN108229504B (zh) 图像解析方法及装置
US10769473B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN110517262B (zh) 目标检测方法、装置、设备及存储介质
CN107424166B (zh) 点云分割方法及装置
CN111340195A (zh) 网络模型的训练方法及装置、图像处理方法及存储介质
EP3973507B1 (en) Segmentation for holographic images
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
WO2019197021A1 (en) Device and method for instance-level segmentation of an image
CN114399644A (zh) 一种基于小样本目标检测方法及装置
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
Wang et al. Interactive multilabel image segmentation via robust multilayer graph constraints
JP6389742B2 (ja) 画像セグメンテーション方法、装置、及びプログラム
CN108986210B (zh) 三维场景重建的方法和设备
JP2021051589A5 (ja)
JP5896661B2 (ja) 情報処理装置、情報処理装置の制御方法、およびプログラム
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2016081472A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200227

R150 Certificate of patent or registration of utility model

Ref document number: 6669741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250