JP2017538196A

JP2017538196A - 商品画像のセグメンテーション方法および装置

Info

Publication number: JP2017538196A
Application number: JP2017522490A
Authority: JP
Inventors: リン，ハイルー
Original assignee: アリババグループホウルディングリミテッド
Priority date: 2014-10-29
Filing date: 2015-10-22
Publication date: 2017-12-21
Anticipated expiration: 2035-10-22
Also published as: JP6669741B2; CN105608459A; WO2016066042A1; CN105608459B; US10297029B2; US20170236292A1

Abstract

本発明は、商品画像のセグメンテーション方法および装置を開示する。セグメンテーション方法は、商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行することと、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択することであって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、選択することと、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行することとを含む。本発明では、画像セグメンテーション前に最初に本体位置に応じて画像が分類され、画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。

Description

技術分野
本発明は、画像処理の分野に関し、特に商品画像のセグメンテーション技術に関する。

背景
商品検索および商品選択等の事業サービスで利用する技術の急速な発展に伴い、多くの場合、商品本体を商品画像からセグメンテーションすることが必要となる。現在、例えば重要領域検出に基づくセグメンテーション技術、顔検出に基づくセグメンテーション技術、画像接続性に基づくセグメンテーション技術等、いくつかの画像セグメンテーション技術が既に提案されている。しかし、これらのセグメンテーション技術のいずれも衣服画像のセグメンテーションに適用できない。重要領域検出に基づくセグメンテーション技術が良好なセグメンテーション効果を示すのは、画像が明瞭な背景および単純なレイアウトを有している場合のみであるが、大多数の商品画像は複雑な背景または複雑なレイアウトを有している。顔検出に基づくセグメンテーション技術は、ファッションモデルがおり、そのファッションモデルの顔が明瞭で単純な姿勢をとっている状況に適しているが、多くの商品画像では、ファッションモデルが写っていないか、またはファッションモデルが複雑な姿勢をとっている。画像接続性に基づくセグメンテーション技術は、画像が明瞭な背景および単純なレイアウトを有し、かつ衣服が殆どテクスチャを有していない状況に適しているが、大多数の商品画像は複雑な背景または複雑なレイアウトを有している。従って、これらのセグメンテーション方法では画像セグメンテーションの満足すべき効果が実現困難であることが分かる。

概要
本発明の目的は、商品画像から商品本体を正確にセグメンテーションすることができる商品画像のセグメンテーション方法および装置を提案することである。

上述の技術的課題を解決するために、本発明の実施形態は、画像分類を実行するように最初に画像分類器をトレーニングし、次いで画像分類の結果に応じて商品本体をセグメンテーションする商品画像のセグメンテーション方法を開示する。本方法は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行するステップと、
画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択するステップであって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場（weight distribution field）を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、ステップと、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するステップと
を含む。

本発明の実施形態はまた、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択する重み構成装置であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置と
を含む、商品画像のセグメンテーション装置を開示する。

従来技術と比較して、本発明の実施形態の主な差異および利点は以下の通りである。

第１に、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。

更に、深層学習法が利用される。すなわち、分類が合理的であり、かつ分類効果も良好であるように、画像分類器としての役割を果たすように畳み込みニューラルネットワークがトレーニングされる。

更に、畳み込みニューラルネットワークはトレーニング集合に基づいてトレーニングされ、トレーニング集合を構築する過程において、分類前にクラスタリングが実行され、それは、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。

更に、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、画像セグメンテーションテンプレートの重み分布場が構成され、従って、より正確なセグメンテーション結果を実現することが可能である。

本発明の第１の実施形態における商品画像のセグメンテーション方法の概略フローチャートである。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、ＣＮＮネットワークの概略構造図である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する概略フローである。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のＨＯＧ機能抽出の概略構成図である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際のクラスタリング結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。本発明の第１の実施形態における商品画像のセグメンテーション方法で採用される、トレーニング集合を構築する際の分類結果の例である。本発明の第２の実施形態における商品画像のセグメンテーション装置の概略構造図である。

詳細な説明
以下の説明において、本出願に対する読者の理解を深めるために多くの技術的詳細が提示される。しかし、当業者は、本出願に添付される請求項に記載された技術的解決策がこれらの技術的詳細なしに実施可能であり、各種の変更形態および変形形態が以下の実施形態に基づくことを理解するであろう。

本発明の上述の目的、技術的解決策および利点を分かり易くするために、本発明の実施形態について添付の図面を参照しながら以下に詳細に記述する。

本発明の第１の実装形態は商品画像のセグメンテーション方法に関する。図１は、商品画像のセグメンテーション方法の概略フローチャートである。

具体的には、本セグメンテーション方法において、画像分類の結果に応じて商品本体をセグメンテーションする。図１に示すように、商品画像のセグメンテーション方法は以下のステップを含む。
ステップＳ１０１において、商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する。

その後、処理フローはステップＳ１０２へ進み、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す。

その後、処理フローはステップＳ１０３へ進み、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションステップを実行する。

その後、フローは終了する。

上述のステップで分かるように、本発明は、画像セグメンテーション前に最初に本体位置に応じて画像を分類する。画像が直接セグメンテーションされる既存の技術と比較して、画像分類後のセグメンテーション結果が最適化される。

ステップＳ１０１で実行される画像分類において、画像分類は深層学習法により実行され、分類は合理的かつ良好な効果を有する。当然のことながら、他の画像分類方法も本明細書において非限定的に適用可能である。

本明細書で用いる深層学習法は、人工ニューラルネットワークに関するものであり、特に、画像分類器としての役割を果たすように畳み込みニューラルネットワーク（ＣＮＮネットワーク）をトレーニングすることに関する。

畳み込みニューラルネットワーク以外にも、例えば、自動エンコーダ、疎符号化、制限付きボルツマン機械（ＲＢＭ）、ディープビリーフネットワーク（ＤＢＮ）等、他のあらゆる深層学習法が適用できることが理解され得る。

画像分類器としてＣＮＮネットワークを用いる場合、ＣＮＮネットワークは、深層ネットワークであり、例示的構造として図２に示すように、５つの畳み込み層、２つの完全接続層、および１つのソフトマックス層を含む８層構造である。これに加え、ＣＮＮネットワークはまた、例えば、ダウンサンプリング層、または異なる数の畳み込み層等を含む別の構造内にあってもよいことが理解され得る。

上述のＣＮＮネットワークをトレーニングするために、トレーニング集合が最初に構築される。図３は、トレーニング集合を構築する例示的なフローを示す。このフローにおける各ステップは、実際の要件に応じて調整可能であり、フロー全体が図３に示す態様に限定されないことが理解され得る。

図３に示すように、トレーニング集合の構築は以下のステップを含む。
ステップＳ２０１において商品画像を取得する。

その後、ステップＳ２０２へ進み、取得した商品画像からの複数の特徴の抽出を実行する。

その後、ステップＳ２０３へ進み、抽出された複数の特徴に応じて、取得した商品画像をクラスタリングし、クラスタの数はＡである。

その後、ステップＳ２０４へ進み、Ａ個のクラスタの商品画像を確認し、商品画像内の本体位置に応じて、クラスタのうちのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および他のクラスタにおける画像が各種の異なる本体位置クラスに分類され、本体位置クラスの数はＢであり、ＡおよびＢは両方とも整数であり、かつＡ＞Ｂ≧２である。

その後、フローは終了する。

理解を容易にするために、上述のステップに従ってトレーニング集合を構築する例を以下に示す。本例において、処理対象は衣服商品画像である。本例は一例に過ぎず、本発明がこれに限定されることなく他の商品画像にも適用可能であることが理解され得る。

最初に、クローラーを用いて商品画像をダウンロードする。本例では、Taobaoプラットフォーム上の女性用ドレスのカテゴリのデータをダウンロードし、データの数は１００万個のオーダー、すなわちビッグデータである。画像をダウンロードし、次いて後続処理のために標準化することにより、全ての画像を同じサイズ、例えば解像度２５６×２５６に縮尺する。

次に、データの２つの特徴、すなわち有向勾配（ＨＯＧ）特徴のヒストグラムおよび画像サイズ特徴を抽出する。図４に示すように、例えばＨＯＧ特徴の抽出に際して、１ブロックのサイズが９６に設定され、ブロックはスライドしながら画像を横断的に移動し、ブロックの距離は４０に設定され、各ブロックは４つのセルに分割されているため、セルのサイズは４８に設定され、各セルの方向数は９に設定されている。簡単に言えば、ＨＯＧ特徴の抽出は、画像（ｘ、ｙ、ｚ（グレイスケール）三次元画像として撮像）をグレー階調化し、次いでそれを４つの小セルに分割して、各セル内の各画素の勾配（すなわち方位）を計算して、最後に勾配のヒストグラム（異なる勾配の数）を作成し、これにより各セルのＨＯＧ記述子を形成することができる。複数の画像が画像のＨＯＧ特徴およびサイズ特徴に応じてクラスタリングされて、Ａ個のクラスタが得られ、Ａは例えば５１２である。図５〜９は、クラスタリング結果の画像のいくつかの例である。

最後に、複数の画像がクラスタリング結果に応じて分類される。Ａ個のクラスタの商品画像を確認することにより、商品画像内の本体位置に応じて、大多数の場合に、クラスタのいくつかにおける全ての画像が同じ本体位置クラスに分類され、および少数の場合に、他のクラスタにおける画像が各種の異なる本体位置クラスに分類される。本体位置クラスの数はＢであり、Ｂは例えば５である。５つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。これらのクラスの例を図１０〜１４に示す。図１０は複雑な多体画像、図１１は二体画像、図１２は単体標準画像、図１３は単体標準画像よりも狭い画像、および図１４は単体標準画像よりも広い画像である。

ＡおよびＢは両方とも整数であり、かつＡ＞Ｂ≧２であり、先行する数により制限されない。トレーニング集合を構築する処理において、クラスタリングは分類前に実行されるため、ビッグデータを処理する際の分類の精度を大幅に向上させ、かつ作業負荷およびコストを低減することができる。

ここで上述のステップＳ１０２について具体的に記述する。ステップＳ１０２において、画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択し、ここで、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場は、商品画像内の各画素が前景または背景に属する確率を表す。

例えば、５つのクラスがあり、５つのクラスは各々、例えば、複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像である。動作は以下のように実行される。

複雑な多体画像の場合、画像セグメンテーションは実行されない。

二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像の場合、本体位置テンプレートは各々定義されており、本体位置テンプレートの位置パラメータは互いに異なる。

本体位置テンプレート用に構成された重み分布場の設計原理は、中心に近いほど、衣服本体である確率が大きく（すなわち重みが大きい）、中心から遠いほど、衣服本体である確率が小さい（すなわち重みが小さい）。従来の重み分布構成では、画素点の分布はそれらの色に応じて決定されるため、良好なセグメンテーション効果が得られないのに対し、本発明では、分布が本体位置により決定されるため、セグメンテーション効果が大幅に向上する。

各画素点ｐに対して、例えば画素が前景または背景に属する確率、すなわち画素が商品本体である確率が以下の定義式により定義される。

ここで、ｄ（ｐ）はｐの画像中心点への距離測定値である。

異なる種類の画像を処理するために、異なる本体位置テンプレートに対して位置パラメータａ、ｂを導入する。

具体的には

であり、ここで、centerは画像の中心点を指し、center.xおよびcenter.yは中心点の水平および垂直座標を表す。ｐ．ｘおよびｐ．ｙは各々、点ｐの水平および垂直座標を表す。

位置パラメータは例えば以下のように設定することができる。
単体標準画像の場合、ａ＝０．３、ｂ＝０．８に構成され、
単体標準画像よりも狭い画像の場合、ａ＝０．２、ｂ＝０．７９に構成され、
単体標準画像よりも広い画像の場合、ａ＝０．４、ｂ＝０．８１に構成され、および
二体画像の場合、最初に画像の左半分が撮像され、次いで単体標準画像として処理される。

ここで上述のステップＳ１０３について詳述する。ステップＳ１０３において、商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行する。例えばGraph Cutsを用いて画像をセグメンテーションする。

Graph Cuts以外の他の画像セグメンテーション方法、例えばGrabCutも本発明に適用できることが理解され得る。

Graph Cutsによる画像セグメンテーションの実行について詳述する。

各画像に対して、例えば解像度が２５６×２５６の場合、２５６×２５６個のセルを有する画像が生成され、各画素点位置は通常のノードであり、各通常のノードは各々、上下左右側が４つのノードに接続されたエッジを有している。各エッジは重みを有し、エッジのそのような重みは通常の重みであり、画素点同士の類似点に応じて構成されている。

一方が前景ノード、他方が背景ノードである２つの仮想ノードを画像に追加する。各々の通常ノードは前景ノードに接続され、かつ背景ノードにも接続されている。前景ノードに接続された通常ノードの前方接続線の重み、および背景ノードに接続された通常ノードの後方接続線の重みは、ステップＳ１０２で重み分布場に応じて計算することにより得られる。すなわち、この重み分布場は、商品画像内の各画素が前景（商品本体）または背景に属する確率を表す。

画像および重みが構成されると、画像は、合理的な方法で２つの部分に分割され、前景ノードに接続された部分が商品本体である。

本発明の方法の各実装形態は、ソフトウェア、ハードウェア、ファームウェア等により実現可能である。本発明がソフトウェア、ハードウェア、またはファームウェアのいずれにより実現されるかに拘わらず、命令コードを任意の種類のコンピュータのアクセス可能なメモリ（例えば、永久または変更可能、揮発性または不揮発性、固体または非固体、固定または交換可能な媒体等）に保存することができる。同様に、メモリは例えばプログラム可能アレイ論理（略してＰＡＬ）、ランダムアクセスメモリ（略してＲＡＭ）、プログラム可能読み出し専用メモリ（略してＰＲＯＭ）、読み出し専用メモリ（略してＲＯＭ）、電気的消去可能プログラム可能ＲＯＭ（略してＥＥＰＲＯＭ）、ディスク、光ディスク、デジタル多用途ディスク（略してＤＶＤ）等であってよい。

本発明の第２の実装形態は、商品画像のセグメンテーション装置に関する。図１５は、商品画像のセグメンテーション装置の概略構造図である。図１５の構造に限定されることなく、実際の要件に応じて本発明の現実の構造に対して必要な調整を行ってよい。

具体的には、商品画像のセグメンテーション装置は、画像分類の結果に応じて商品本体をセグメンテーションすることができる。図１５に示すように、セグメンテーション装置１００は、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置１０１と、
分類装置からの画像分類の結果に応じて、異なるクラスの商品画像に対するそれぞれの本体位置テンプレートを選択する重み構成装置１０２であって、本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、本体位置テンプレートの各々が所定の位置パラメータに応じた重み分布場を有して構成され、重み分布場が、商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置１０２と、
商品画像から商品本体をセグメンテーションするために、選択された本体位置テンプレートの重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置１０３と
を含む。

第１の実装形態は、本実装形態に対応する方法実装形態であり、本実装形態は第１の実装形態と協同して実施可能である。第１の実装形態で言及した関連技術の詳細は依然として本実装形態で有効であり、反復を避けるために以下では記述しない。従って、本実装形態で言及する関連技術の詳細も第１の実装形態に適用可能である。

必須ではないが選択肢として、セグメンテーション装置１００は、トレーニング集合を構築するトレーニング集合構築装置１０４（図１５に示さず）を更に含み、トレーニング集合構築装置により構築されたトレーニング集合が、分類装置をトレーニングするために使用される。

必須ではないが選択肢として、セグメンテーション装置１００は、商品画像の中心に近いほど、商品本体である重みが大きくなり、および商品画像の中心から遠いほど、商品本体である重みが小さくなるように、重み分布場を構成する重み分布場構成装置１０５（図１５に示さず）を更に含む。

本発明の装置実施形態で言及した各種装置が全て論理装置であってよく、物理的に論理装置は物理装置であってよく、また物理装置の一部であってもよく、更に複数の物理装置の組合せで実装されてもよいことに注意されたい。これらの論理装置の物理的実装形態自体はそれほど重要でないが、これらの論理装置により実現される機能の組合せは、本発明で提案する技術的課題を解決するうえで重要である。また、本発明の新規性を強調するために、本発明の上述の各種装置実施形態では、本発明で提案する技術的課題と密接に関連しない装置について紹介していないが、これは、上述の装置実施形態に他の装置が一切存在しないという意味ではない。

本特許の請求項および記述において、第１、第２等の関係用語は、ある主体または動作を別の主体または動作から区別するために用いているに過ぎず、これらの主体または動作間に何らかの実際の関係または順序が存在することを要求または示唆するものではないことに注意されたい。更に、用語「包含する」、「含む」、またはこれらの任意の変化形は非排他的包含を意味し、従って、要素のリストを含む処理、方法、部品、または装置が必ずしもその要素に限定されず、明示的に列挙しない他の要素を含んでいてよく、または更にそのような処理、方法、部品、または装置に固有の要素を含む。別途限定しない限り、「１つ（a）／１つ（an）を含む」によって限定された要素は、その要素を含む処理、方法、部品、または装置に同じ要素が別途存在することを排除しない。

本発明について、本発明のいくつかの好適な実施形態を参照しながら図示および説明してきたが、当業者は、本発明の範囲から逸脱することなく、本発明の形式および詳細に対して各種の変更形態がなされ得ることが理解されるであろう。

Claims

商品画像のセグメンテーション方法であって、
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行するステップと、
前記画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択するステップであって、前記本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、前記本体位置テンプレートの各々が前記所定の位置パラメータに応じた重み分布場を有して構成され、前記重み分布場が、前記商品画像内の各画素が前景または背景に属する確率を表す、ステップと、
前記商品画像から商品本体をセグメンテーションするために、前記選択された本体位置テンプレートの前記重み分布場に応じて画像セグメンテーションを実行するステップと
を含むことを特徴とする、方法。
前記商品画像が衣服商品画像であることを特徴とする、請求項１に記載の商品画像のセグメンテーション方法。
前記画像分類が深層学習法により実行され、前記深層学習法が、画像分類器としての役割を果たすように畳み込みニューラルネットワークをトレーニングするステップを含むことを特徴とする、請求項２に記載の商品画像のセグメンテーション方法。
前記畳み込みニューラルネットワークが少なくとも５つの畳み込み層、２つの完全接続層、および１つのソフトマックス層を含むことを特徴とする、請求項３に記載の商品画像のセグメンテーション方法。
前記畳み込みニューラルネットワークがトレーニング集合に基づいてトレーニングされることを特徴とする、請求項３に記載の商品画像のセグメンテーション方法。
前記トレーニング集合が、
商品画像を取得するステップと、
前記取得された商品画像からの複数の特徴の抽出を実行するステップと、
前記抽出された複数の特徴に応じて、前記取得された商品画像をクラスタリングするステップであって、クラスタの数がＡである、ステップと、
前記Ａ個のクラスタの前記商品画像を確認するステップであって、前記商品画像内の前記本体位置に応じて、前記クラスタのいくつかにおける全ての前記画像が同じ本体位置クラスに分類され、および他のクラスタにおける画像が各種の異なる本体位置クラスに分類され、前記本体位置クラスの数がＢである、ステップと
に従って構築され、ＡおよびＢが両方とも整数であり、かつＡ＞Ｂ≧２であることを特徴とする、請求項５に記載の商品画像のセグメンテーション方法。
前記複数の特徴が、少なくとも有向勾配特徴およびサイズ特徴のヒストグラムを含むことを特徴とする、請求項６に記載の商品画像のセグメンテーション方法。
前記本体位置クラスが、少なくとも以下のクラス：複雑な多体画像、二体画像、単体標準画像、単体標準画像よりも狭い画像、および単体標準画像よりも広い画像のうちの１つまたはその組合せを含むことを特徴とする、請求項６に記載の商品画像のセグメンテーション方法。
前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成するステップを更に含むことを特徴とする、請求項１に記載の商品画像のセグメンテーション方法。
商品画像内の本体位置に応じて、入力された商品画像に対して画像分類を実行する分類装置と、
前記分類装置からの前記画像分類の結果に応じて、異なるクラスの商品画像に対してそれぞれの本体位置テンプレートを選択する重み構成装置であって、前記本体位置テンプレートの各々の所定の位置パラメータが互いに異なり、前記本体位置テンプレートの各々が前記所定の位置パラメータに応じた重み分布場を有して構成され、前記重み分布場が、前記商品画像内の各画素が前景または背景に属する確率を表す、重み構成装置と、
前記商品画像から商品本体をセグメンテーションするために、前記選択された本体位置テンプレートの前記重み分布場に応じて画像セグメンテーションを実行するセグメンテーション装置と
を含む、商品画像のセグメンテーション装置。
トレーニング集合を構築するトレーニング集合構築装置を更に含み、
前記トレーニング集合構築装置により構築された前記トレーニング集合が、前記分類装置をトレーニングするために使用されることを特徴とする、請求項１０に記載の商品画像のセグメンテーション装置。
前記商品画像の中心に近いほど、商品本体である重みが大きくなり、前記商品画像の前記中心から遠いほど、商品本体である前記重みが小さくなるように、前記重み分布場を構成する重み分布場構成装置を更に含むことを特徴とする、請求項１０に記載の商品画像のセグメンテーション装置。