JP7021161B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7021161B2
JP7021161B2 JP2019170025A JP2019170025A JP7021161B2 JP 7021161 B2 JP7021161 B2 JP 7021161B2 JP 2019170025 A JP2019170025 A JP 2019170025A JP 2019170025 A JP2019170025 A JP 2019170025A JP 7021161 B2 JP7021161 B2 JP 7021161B2
Authority
JP
Japan
Prior art keywords
category
image
learning
processed
traded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019170025A
Other languages
English (en)
Other versions
JP2021047662A (ja
Inventor
雅二郎 岩崎
修平 西村
拓明 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019170025A priority Critical patent/JP7021161B2/ja
Publication of JP2021047662A publication Critical patent/JP2021047662A/ja
Priority to JP2022015744A priority patent/JP7457738B2/ja
Application granted granted Critical
Publication of JP7021161B2 publication Critical patent/JP7021161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明の実施形態は、学習装置、学習方法および学習プログラムに関する。
近年、多段に接続されたニューロンを有するDNN(Deep Neural Network)等のモデルを利用して言語認識や画像認識等といった各種分類処理を実現する技術が知られている。例えば、このような技術では、所定の入力情報をモデルに入力した際に、その入力情報に対応する出力情報として利用者が所望する出力情報を出力するようにモデルを学習する。
特開2017-162074号公報
しかしながら、上記の従来技術では、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるとは限らない。例えば、上述した学習が行われたモデルは、入力情報が有する特徴のうち、利用者が想定している特徴に応じて出力情報を出力しているのか、利用者が想定していない特徴に応じて出力情報を出力しているのかが不明である。このため、上記の従来技術では、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるとは限らない。
本願は、上記に鑑みてなされたものであって、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができる学習装置、学習方法および学習プログラムを提供することを目的とする。
本願にかかる学習装置は、複数のオブジェクトを含む所定の画像を取得する取得部と、前記複数のオブジェクトそれぞれから検出された各カテゴリである第1のカテゴリと、前記所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する学習部とを有することを特徴とする。
実施形態の一態様によれば、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるといった効果を奏する。
図1は、実施形態にかかる学習処理の一例を示す図である。 図2は、実施形態にかかる検出処理の一例を示す図である。 図3は、実施形態にかかる学習システムの構成例を示す図である。 図4は、実施形態にかかる学習装置の構成例を示す図である。 図5は、実施形態にかかる画像情報記憶部の一例を示す図である。 図6は、実施形態にかかる学習データ記憶部の一例を示す図である。 図7は、実施形態にかかる出力情報記憶部の一例を示す図である。 図8は、実施形態にかかる学習処理手順を示すフローチャートである。 図9は、学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願にかかる学習装置、学習方法および学習プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ説明する。なお、この実施形態により本願にかかる学習装置、学習方法および学習プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.学習処理の一例〕
まず、図1を用いて、実施形態にかかる学習処理の一例について説明する。図1は、実施形態にかかる学習処理の一例を示す図である。実施形態にかかる学習処理は、学習装置100によって行われる。
図1の説明に先立って、図3を用いて、実施形態にかかる学習システムについて説明する。図3は、実施形態にかかる学習システム1の構成例を示す図である。実施形態にかかる学習システム1は、図3に示すように、端末装置10と、学習装置100とを含む。端末装置10、学習装置100は、ネットワークNを介して有線または無線により通信可能に接続される。なお、図3に示す学習システム1には、複数台の端末装置10や、複数台の学習装置100が含まれてよい。
端末装置10は、所定の利用者によって利用される情報処理端末である。端末装置10は、例えば、所定の画像中に複数のオブジェクトが存在する場合に、複数のオブジェクトのうち取引対象のオブジェクトとそれ以外のオブジェクトとを動的に区別できるようにしたいと考える利用者によって利用される情報処理端末である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等である。例えば、端末装置10は、利用者の操作に従って、学習装置100に画像を入力する。
ここで、実施形態にかかる学習処理が行われるにあたっての前提について説明する。まず、実施形態にかかる利用者(例えば、上記端末装置10の利用者)は、学習装置100を管理する管理主であるとともに、様々な店舗から出品されてきた商品を一元管理して、エンドユーザに販売するショッピングサービス(以下、「サービスSH」と表記する場合がある)を提供しているものとする。このようなショッピングサービスは、例えば、電子モール等とも呼ばれる。店舗は、サービスSHに商品を出品する場合、出品させる商品(出品商品)に関する各種情報とともに、出品商品の画像(商品画像)を入稿する。
このような商品画像では、例えば、複数のオブジェクト(例えば、スカートとブーツ等)を着用した人物が映されていることが多いが、実際には、複数のオブジェクトのうち取引対象のオブジェクトは1つだけ(例えば、スカートだけ)といったことはよくある。このため、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトがいずれであるかを判断し、それを抽出することが望まれる。なぜなら、商品画像の数は非常に膨大であり、このような処理を手作業で行うのは非現実的であるからである。
さらに、取引対象のオブジェクトが属するカテゴリを商品画像に紐付けたいといった背景が存在することも、複数のオブジェクトのうち取引対象のオブジェクトを動的かつ高精度に抽出することが望まれる要因となっている。この点について、人物が取引対象のスカートおよび取引対象ではないブーツを着用している姿が映された商品画像IMGを例に挙げると、単純に、各オブジェクト(すなわち、スカートとブーツ)を領域で囲む等して個別に抽出するとともに、抽出したオブジェクト毎に当該オブジェクトが属する大まかな(粒度の粗い)カテゴリを特定する検出器は既に存在する。
しかしながら、このような検出器では、複数のオブジェクトのうち取引対象のオブジェクトとそうでないオブジェクトを区別することは出来ないし、取引対象のオブジェクトが属するより粒度の細かいカテゴリを特定することもできない。かといってこのような作業を手作業で行うのは困難を伴う。
より詳細には、商品画像IMGにおいて、スカートが取引対象のオブジェクトであり、このスカートが例えば、カテゴリ「ボトムス」に対してより粒度の細かいカテゴリ「ミモレスカート」に分類させることのできる商品であったとしても、ここまでの分類を上記検出器で実現させるのは不可能である。一方で、上記のようにより粒度の細かいカテゴリをラベル付与することができれば、例えば、商品検索の際によりピンポイントな商品を検索することができるようになり便利である。
以上の点まとめると、本実施形態では、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出(検出)したうえで、抽出した取引対象のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定(検出)することを前提および目的としている。なお、粒度の細かいカテゴリとは、あるカテゴリに対してより下位のカテゴリを意味する。また、粒度の細かいカテゴリとは、あるカテゴリがカバーする検索範囲より狭い検索範囲をカバーするカテゴリを意味するものでもある。
すなわち、実施形態にかかる学習装置100は、このような前提のもと、実施形態にかかる学習処理を行う。具体的には、学習装置100は、複数のオブジェクトを含む所定の画像を取得し、複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。例えば、学習装置100は、所定の画像として、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内の前記オブジェクトから検出された第1のカテゴリが対応付けられた画像を取得する。
例えば、学習装置100は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第2のカテゴリと関係性のより強い第1のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルを学習する。
また、学習装置100は、第1のカテゴリと、第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第2のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルを学習する。例えば、学習装置100は、第1のカテゴリのうち、当該第1のカテゴリよりも下位の第2のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、第2のカテゴリを出力するようにモデルを学習する。
ここからは、実施形態にかかる学習処理の一例について説明する。図1の例では、学習装置100は、出品商品を含む商品画像を取得する(ステップS11)。このような商品画像は、以下に説明する学習データの生成に用いられる。したがって、学習装置100は、学習に用いられる画像を取得する。例えば、学習装置100は、サービスSHに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。例えば、かかる商品画像が学習装置100内の所定の記憶部に格納されている場合には、学習装置100は、この所定の記憶部から商品画像を取得する。また、かかる商品画像が例えば任意の外部装置に格納されている場合には、学習装置100は、この外部装置から商品画像を取得する。
図1の例では、学習装置100は、ステップS11において、商品画像SMG1、商品画像SMG2、という2つの商品画像を取得しているが、取得される商品画像の数が限定されないことはいうまでもない。各商品画像について説明する。
まず、商品画像SMG1について説明する。図1の例では、商品画像SMG1は、既存の検出器によってTシャツであるオブジェクトOB111が検出されることにより、さらにオブジェクトOB111が領域AR11を用いて抽出され、また、既存の検出器によってスニーカーであるオブジェクトOB112が検出されることにより、さらにオブジェクトOB112が領域AR12を用いて抽出されている。また、図1の例では、領域AR11(領域AR11に含まれる画像、あるいは、オブジェクトOB111、ともいえる)は、既存の検出器によってカテゴリ「トップス」を示すラベルCT111が付与されている。また、図1の例では、領域AR12(領域AR12に含まれる画像、あるいは、オブジェクトOB112、ともいえる)は、既存の検出器によってカテゴリ「くつ」を示すラベルCT112が付与されている。また、かかる例では、領域AR11で抽出されるオブジェクトOB111、および、領域AR12で抽出されるオブジェクトOB112は、複数のオブジェクトのうちの1つのオブジェクトである。また、かかる例では、カテゴリ「トップス」、および、カテゴリ「くつ」は、第1のカテゴリの一例である。以下、第1のカテゴリとしての「トップス」を「第1カテゴリCT111」と表記する場合がある。また、第1のカテゴリとしての「くつ」を「第1カテゴリCT112」と表記する場合がある。
また、図1の例では、商品画像SMG1には、階層構造のカテゴリ「ファッション>レディース>トップス>Tシャツ>ゆったりTシャツ」である商品カテゴリCT21が付与されている。商品カテゴリCT21は、例えば、商品画像SMG1の入稿元によって登録される。また、商品カテゴリCT21は、所定の画像に対して予め付与される第2のカテゴリの一例である。以下、第2のカテゴリとしての「ファッション>レディース>トップス>Tシャツ>ゆったりTシャツ」を「第2カテゴリCT21」と表記する場合がある。
次に、商品画像SMG2について説明する。図1の例では、商品画像SMG2は、既存の検出器によってスカートであるオブジェクトOB121が検出されることにより、さらにオブジェクトOB121が領域AR21を用いて抽出され、また、既存の検出器によってハイヒールであるオブジェクトOB122が検出されることにより、さらにオブジェクトOB122が領域AR22を用いて抽出されている。また、図1の例では、領域AR21(領域AR21に含まれる画像、あるいは、オブジェクトOB121、ともいえる)は、既存の検出器によってカテゴリ「ボトムス」を示すラベルCT121が付与されている。また、図1の例では、領域AR22(領域AR22に含まれる画像、あるいは、オブジェクトOB122、ともいえる)は、既存の検出器によってカテゴリ「パンプス」を示すラベルCT122が付与されている。また、かかる例では、領域AR21で抽出されるオブジェクトOB121、および、領域AR22で抽出されるオブジェクトOB122は、複数のオブジェクトのうちの1つのオブジェクトである。また、かかる例では、カテゴリ「ボトムス」、および、カテゴリ「パンプス」は、第1のカテゴリの一例である。以下、第1のカテゴリとしての「ボトムス」を「第1カテゴリCT121」と表記する場合がある。また、第1のカテゴリとしての「パンプス」を「第1カテゴリCT122」と表記する場合がある。
また、図1の例では、商品画像SMG2には、階層構造のカテゴリ「ファッション>レディース>ボトムス>スカート>ミモレスカート」である商品カテゴリCT22が付与されている。商品カテゴリCT22は、例えば、商品画像SMG2の入稿元によって登録される。また、商品カテゴリCT22は、所定の画像に対して予め付与される第2のカテゴリの一例である。以下、第2のカテゴリとしての「ファッション>レディース>ボトムス>スカート>ミモレスカート」を「第2カテゴリCT22」と表記する場合がある。
図1の例によると、1つの商品画像には、複数のオブジェクトが含まれることにより、1つの商品画像には、オブジェクトの数に応じた第1のカテゴリが付与されているとともに、1つの第2のカテゴリが付与されている。
このような状態において、学習装置100は、各商品画像(図1の例では、商品画像SMG1およびSMG2)について、各第1のカテゴリと第2のカテゴリとに基づいて、当該商品画像で取引対象となっているオブジェクト(取引対象のオブジェクト)を特定するための一連の特定処理を行う(ステップS12)。例えば、学習装置100は、領域によって抽出されている各オブジェクトに紐付けられる第1のカテゴリ、および、商品画像に紐付けられる第2のカテゴリを取得する。そして、学習装置100は、取得した各第1のカテゴリと第2のカテゴリとに基づいて、当該商品画像で取引対象となっているオブジェクトを特定する。より詳細には、学習装置100は、各第1のカテゴリと、第2のカテゴリとを比較することで、第2のカテゴリに対して関係性のより強い方の第1のカテゴリを特定し、特定した第1のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する。
このような特定処理について、商品画像SMG1の例を用いて説明する。学習装置100は、第1のカテゴリとして、領域AR11によって抽出されるオブジェクトOB111に紐付けられる第1カテゴリCT111を取得し、また、領域AR12によって抽出されるオブジェクトOB112に紐付けられる第1カテゴリCT112を取得する。また、学習装置100は、商品画像SMG1に紐付けられる第2のカテゴリとして、第2カテゴリCT21を取得する。
このような状態において、学習装置100は、第1カテゴリCT111および第2カテゴリCT21を比較(マッチング)することで、第1カテゴリCT111および第2カテゴリCT21は互いに関連性を有するか否かを判定する。具体的には、学習装置100は、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリ(ファッション、レディース、トップス、Tシャツ、および、ゆったりTシャツ)と、第1カテゴリCT111(トップス)とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT111にマッチングするカテゴリが存在するか否かを判定する。
かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第1カテゴリCT111(トップス)に一致する。したがって、かかる例では、学習装置100は、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT111にマッチングするカテゴリが存在すると判定する。また、このように判定した結果、学習装置100は、第1カテゴリCT111および第2カテゴリCT21は互いに関連性を有すると判定する。
また、学習装置100は、第1カテゴリCT112および第2カテゴリCT21を比較(マッチング)することで、第1カテゴリCT112および第2カテゴリCT21は互いに関連性を有するか否かを判定する。具体的には、学習装置100は、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリ(ファッション、レディース、トップス、Tシャツ、および、ゆったりTシャツ)と、第1カテゴリCT112(くつ)とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT112にマッチングするカテゴリが存在するか否かを判定する。
かかる例では、階層構造を構成する各構成要素としてのカテゴリの中に、第1カテゴリCT112(くつ)に一致(または類似)するカテゴリが存在しない。したがって、かかる例では、学習装置100は、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT112にマッチングするカテゴリが存在しないと判定する。また、このように判定した結果、学習装置100は、第1カテゴリCT112および第2カテゴリCT21は互いに関連性を有しないと判定する。
さて、ステップS12の例によると、学習装置100は、第1カテゴリCT111および第2カテゴリCT21は互いに関連性を有すると判定した一方で、第1カテゴリCT112および第2カテゴリCT21は互いに関連性を有しないと判定した。このようなことから、第1カテゴリCT111および第1カテゴリCT112のうち、第1カテゴリCT111の方が、第2カテゴリCT21に対して関係性がより強いといえる。このようなことから、学習装置100は、第2カテゴリCT21に対して関係性のより強い方の第1のカテゴリとして第1カテゴリCT111を特定し、第1カテゴリCT111が紐付けられるオブジェクトOB111を取引対象のオブジェクトとして特定する。また、このようなことから、学習装置100は、第1カテゴリCT111および第1カテゴリCT112のうち、第2カテゴリCT21によって示唆される第1のカテゴリとして第1カテゴリCT111を特定する、と言い換えることができる。
なお、ステップS12では、学習装置100が、商品画像SMG1において取引対象となっているオブジェクトを特定する例を示したが、学習装置100は、商品画像SMG2についても同様にして、取引対象のオブジェクトを特定する。詳細な説明は省略するが、図1の例では、学習装置100は、第1カテゴリCT121および第1カテゴリCT122のうち、第2カテゴリCT22に対して関係性のより強い方の第1のカテゴリとして第1カテゴリCT121を特定することになる。したがって、学習装置100は、第1カテゴリCT121が紐付けられるオブジェクトOB121を取引対象のオブジェクトとして特定する。
次に、学習装置100は、ステップS12で特定した取引対象のオブジェクトに紐付けられる第1のカテゴリよりも下位のカテゴリ(下位カテゴリ)を決定する(ステップS13)。具体的には、学習装置100は、第2のカテゴリに基づいて、第1のカテゴリよりも下位のカテゴリを決定する。
ステップS12における商品画像SMG1の例では、学習装置100は、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第1カテゴリCT111(トップス)に一致することをきっかけに、オブジェクトOB111を取引対象のオブジェクトとして特定している。このようなことから、学習装置100は、第2カテゴリCT21において、「トップス」を基準に最も下位のカテゴリである「ゆったりTシャツ」を、第1カテゴリCT111に対する下位カテゴリとして決定する。より具体的には、学習装置100は、「トップス」を基準に最も下位のカテゴリである「ゆったりTシャツ」を、第1カテゴリCT111よりも粒度の細かい下位カテゴリとして決定する。以下、「ゆったりTシャツ」を「下位カテゴリCT211」と表記する場合がある。
また、ステップS12における商品画像SMG2の例では、学習装置100は、第2カテゴリCT22として、階層構造を構成する各構成要素としてのカテゴリのうち「ボトムス」が、第1カテゴリCT121(ボトムス)に一致することをきっかけに、オブジェクトOB121を取引対象のオブジェクトとして特定している。このようなことから、学習装置100は、第2カテゴリCT22において、「ボトムス」を基準に最も下位のカテゴリである「ミモレスカート」を、第1カテゴリCT121に対する下位カテゴリとして決定する。より具体的には、学習装置100は、「ボトムス」を基準に最も下位のカテゴリである「ミモレスカート」を、第1カテゴリCT121よりも粒度の細かい下位カテゴリとして決定する。以下、「ミモレスカート」を「下位カテゴリCT221」と表記する場合がある。
なお、ステップS13で決定された下位カテゴリは、階層構造の第2のカテゴリに含まれる1つのカテゴリであるため、広義には第2のカテゴリとして識別され得る。
次に、学習装置100は、学習データを生成する生成処理を行う(ステップS14)。例えば、学習装置100は、取引対象のオブジェクトに対応する第1のカテゴリと、このオブジェクトを含む商品画像に付与される第2のカテゴリとを紐付けることにより学習に用いる学習データを生成する。図1の例では、学習装置100は、「画像ID」および「対象オブジェクト情報」の組合せ毎に、「第1のカテゴリ」と「下位カテゴリ」とを紐付けることで学習データを生成している。
「画像ID」は商品画像を識別する識別情報を示す。「対象オブジェクト情報」は、「画像ID」によって識別される商品画像において取引対象となっているオブジェクトであって、ステップS12で特定されたオブジェクトを示す情報である。「第1のカテゴリ」は、取引対象のオブジェクトに対応する第1のカテゴリを示す。「下位カテゴリ」は、「第1のカテゴリ」よりも下位のカテゴリであって、ステップS13で決定された下位カテゴリを示す。
図1の例では、学習装置100は、画像ID「SMG1」によって識別される商品画像SMG1について、オブジェクトOB111を取引対象として特定している。また、学習装置100は、オブジェクトOB111に対応する第1のカテゴリである第1カテゴリCT111よりも下位のカテゴリとして下位カテゴリCT211を決定している。このようなことから、図1の例では、学習装置100は、第1カテゴリCT111と下位カテゴリCT211とが紐付けられた学習データを生成している。
また、図1の例では、学習装置100は、画像ID「SMG2」によって識別される商品画像SMG2について、オブジェクトOB121を取引対象として特定している。また、学習装置100は、オブジェクトOB121に対応する第1のカテゴリである第1カテゴリCT121よりも下位のカテゴリとして下位カテゴリCT221を決定している。このようなことから、図1の例では、学習装置100は、第1カテゴリCT121と下位カテゴリCT221とが紐付けられた学習データを生成している。また、学習データは、学習データ記憶部122に格納される。
そして、学習装置100は、ステップS14で生成した学習データに基づいて、モデルを学習する(ステップS15)。具体的には、学習装置100は、第1のカテゴリと第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルMを学習する。処理対象の画像に対して予め付与されるカテゴリとは、例えば、処理対象の画像の入稿元により設定された階層構造状の第2のカテゴリである。例えば、学習装置100は、ステップS14で生成した学習データに基づいて、「第1のカテゴリ」と、「下位カテゴリ」(第2のカテゴリの一例)との関係性を学習する。そして、学習装置100は、処理対象の画像が入力された場合に、学習済みの関係性に基づいて、当該処理対象の画像に含まれるオブジェクトが、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるカテゴリであるか否かを判定する。そして、学習装置100は、処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによってより強く示唆されると判定したオブジェクトについて、取引対象のオブジェクトとして出力するようにモデルMを学習する。
ここで、図1の例により即した形では、学習装置100は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第2のカテゴリと関係性のより強い第1のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルMを学習する。
また、学習装置100は、第1のカテゴリと、第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第2のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルMを学習する。例えば、学習装置100は、第1のカテゴリのうち、当該第1のカテゴリよりも下位の第2のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、この下位の第2のカテゴリを出力するようにモデルを学習する。
例えば、学習装置100は、学習データに基づいて、「第1のカテゴリ」と、「下位カテゴリ」(第2のカテゴリの一例)との関係性を学習する。そして、学習装置100は、学習した関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれる取引対象オブジェクトが属するカテゴリとして、学習データ記憶部122に格納される下位カテゴリのうち取引対象のオブジェクトに応じた下位カテゴリを出力するようにモデルMを学習する。
なお、モデルの学習(生成)手法については、任意の公知技術が適用可能である。例えば、モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、SVM(Support Vector Machine)等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習(ディープラーニング)の技術を用いて行われてもよい。例えば、モデルの生成は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。
ここで、上記の通り、実施形態にかかる学習処理は、2つの前提(目的)のもとになされるものである。具体的には、実施形態にかかる学習処理は、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出(検出)したいという目的、および、抽出した取引対象のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定(検出)するという目的、といった2つの前提(目的)のもとになされるものである。
ただし、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出(検出)したいという目的に焦点を当てると、学習装置100は、必ずしも処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトが属するカテゴリとして、これまでのカテゴリ(第1のカテゴリ)よりも下位のカテゴリを出力するようにモデルを学習するという学習処理を行う必要はない。言い換えれば、学習装置100は、第1のカテゴリと第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルMを学習するという学習処理を行えばよい。
より詳細には、学習装置100は、学習データの生成において、第1のカテゴリと関係性を有する第2のカテゴリを紐付ける際に、階層構造の第2のカテゴリのうち、第1のカテゴリよりも下位の下位カテゴリを紐付ける必要はなく、階層構造の第2のカテゴリのうち任意のカテゴリを紐付けてもよい。例えば、学習装置100は、階層構造の第2のカテゴリをそのまま紐付けてもよい。図1の例(特に、ステップS14の例)でいうと、学習装置100は、「第1カテゴリCT111」および「下位カテゴリCT211」を紐付けるのではなく、第1カテゴリCT111」に対して、階層構造上の「第2カテゴリCT21」をそのまま紐付けてもよい。これにより、学習装置100は、上位下位の関係性にあるカテゴリで構成される第2のカテゴリを用いて、取引対象でないオブジェクトを効果的にフィルタリングすることができるようになる。
ここで、図2を用いて、ステップS15で学習されたモデルMを利用した情報検出の一例を示す。図2は、実施形態にかかる検出処理の一例を示す図である。図2に示すように、学習装置100は、モデルMを学習済みの状態で、処理対象の画像として、画像POG1の入力を受け付けたとする。図2の例では、画像POG1には、オブジェクトOBx11とオブジェクトOBx12とが含まれる。また、画像POG1には、「ファッション>レディース>トップス>Tシャツ>カットソー」といった階層構造状の第2のカテゴリCTx1が予め付与されている。
ここで、学習装置100は、画像POG1を既存の検出器に入力することにより、画像POG1に含まれるオブジェクトを検出するとともに、当該オブジェクトの属するカテゴリを検出する。例えば、学習装置100は、図2に示すように、画像POG1を検出器に入力した場合に、オブジェクトOBx11が領域ARx11で囲まれた状態で出力され、また、カテゴリ「帽子」が出力されたとする。そうすると、学習装置100は、領域ARx11で囲まれたオブジェクトOBx11を検出するとともに、オブジェクトOBx11がカテゴリ「帽子」に属することを検出する。また、例えば、学習装置100は、図2に示すように、画像POG1を検出器に入力した場合に、オブジェクトOBx12が領域ARx12で囲まれた状態で出力され、また、カテゴリ「トップス」が出力されたとする。そうすると、学習装置100は、領域ARx12で囲まれたオブジェクトOBx12を検出するとともに、オブジェクトOBx12がカテゴリ「トップス」に属することを検出する。
なお、モデルMが、既存の検出器と同様に、画像中のオブジェクトを検出するとともに、検出したオブジェクトの大まかなカテゴリを検出する機能も有する場合、学習装置100は、モデルMがに対して画像POG1を入力すればよい。
次に、学習装置100は、図2に示すように、領域によって各オブジェクトが抽出され、また、各オブジェクトの大まかなカテゴリが検出されている状態の画像POG1をモデルMに入力する(ステップS16)。そして、学習装置100は、オブジェクトOBx11およびオブジェクトOBx12のうち、画像POG1で取引対象となっているオブジェクトを検出するとともに、当該オブジェクトの属するより粒度の細かいカテゴリを検出する(ステップS17)。図2の例では、モデルMによって、オブジェクトOBx11に対応する第1のカテゴリ「帽子」よりも、オブジェクトOBx12に対応する第1のカテゴリ「トップス」の方が、第2のカテゴリCTx1とより強い関係性にある判断される。このようなことから、学習装置100は、図2に示すように、画像POG1をモデルMに入力した場合に、取引対象と判断されたオブジェクトOBx12が領域ARx12で囲まれた状態で出力され、また、カテゴリ「五分丈カットソー」が出力されたとする。そうすると、学習装置100は、領域ARx12で囲まれたオブジェクトOBx12を取引対象のオブジェクトとして検出するとともに、オブジェクトOBx12がカテゴリ「五分丈カットソー」に属することを検出する。
また、取引対象のオブジェクトを示す情報として、例えば、領域ARx12により取引対象のオブジェクトOBx12が抽出された状態の画像POG11、および、カテゴリ「五分丈カットソー」は、互いに紐付けられて、出力情報記憶部123に格納される。カテゴリ「五分丈カットソー」は、例えば、ユーザから受け付けられた検索クエリに応じた商品画像を検索する際の、ターゲティング情報となり得る。
さて、これまで図1を用いて説明してきたように、実施形態にかかる学習装置100は、複数のオブジェクトを含む所定の画像を取得し、複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。
ここで、既存の検出器によれば、処理態様の画像POG1から、オブジェクトOBx11およびオブジェクトOBx12を検出することができたとしても、オブジェクトOBx11およびオブジェクトOBx12のうち、いずれが取引対象であるかを判断することあできない。また、既存の検出器によれば、例えば、オブジェクトOBx12についてカテゴリ「トップス」程度の大まかなカテゴリが検出される可能性はあるが、「五分丈カットソー」といった取引対象のオブジェクトOBx12を詳細に説明する粒度の細かいカテゴリが検出される可能性は低い。しかしながら、実施形態にかかる学習装置100による上記学習処理によれば、処理対象の画像に含まれる複数のオブジェクトの中から目的のオブジェクト(取引対象のオブジェクト)を高精度に抽出することができるとともに、抽出したオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを効率的かつ高精度に特定することが可能となる。また、学習装置100は、より粒度の細かいカテゴリを付与することで検索クエリに合わないノイズを効果的することができるため、ユーザが望む商品(あるいは、ユーザが望む商品の商品画像)を高精度に検索する検索システムを実現することができる。
〔2.学習装置の構成〕
次に、図4を用いて、実施形態にかかる学習装置100について説明する。図4は、実施形態にかかる学習装置100の構成例を示す図である。図4に示すように、学習装置100は、通信部110と、記憶部120と、制御部130とを有する。例えば、学習装置100は、図1および図2で説明した学習処理を行うサーバ装置である。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、端末装置10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、画像情報記憶部121と、学習データ記憶部122と、出力情報記憶部123とを有する。
(画像情報記憶部121について)
画像情報記憶部121は、学習に用いられる(学習データの生成に用いられる)画像を記憶する。例えば、画像情報記憶部121は、このような画像として、サービスSHに対して入稿された商品画像を記憶する。ここで、図5に実施形態にかかる画像情報記憶部121の一例を示す。図5の例では、画像情報記憶部121は、「画像ID」、「画像データ」といった項目を有する。
「画像ID」は、複数のオブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「画像データ」は、「画像ID」によって識別される画像そのものを示す。すなわち、図5の例では、画像ID「SMG1」によって識別される商品画像(商品画SMG1)は、画像データDA1で構成される商品画像である例を示す。
(学習データ記憶部122について)
学習データ記憶部122は、モデルの学習に用いられる学習データに関する情報を記憶する。ここで、図6に実施形態にかかる学習データ記憶部122の一例を示す。図5の例では、学習データ記憶部122は、「画像ID」、「対象オブジェクト情報」、「第1のカテゴリ」、「下位カテゴリ」、「モデル情報」といった項目を有する。
「画像ID」は、複数のオブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「対象オブジェクト情報」は、「画像ID」によって識別される画像に含まれる複数のオブジェクトのうち、取引対象のオブジェクトであって、図1のステップS12で特定された取引対象のオブジェクトを示す情報である。「下位カテゴリ」は、取引対象のオブジェクトに紐付けられる第1のカテゴリ(例えば、既存の検出器、あるいは、人手によって定められた大まかなカテゴリ)よりも下位のカテゴリであって、取引対象のオブジェクトを含む商品画像に対して予め付与される階層構造状の第2のカテゴリの中から決定されたカテゴリを示す。また、「下位カテゴリ」は、図1に示すステップS13で決定されたカテゴリである。また、「モデル情報」は、「第1のカテゴリ」と「下位カテゴリ」とを紐付けることで生成された学習データに基づき学習されたモデルを示す。
すなわち、図6の例では、画像ID「SMG1」によって識別される商品画像(商品画像SMG1)には複数のオブジェクトが含まれることにより、複数のオブジェクトのうちオブジェクトOB111が取引対象のオブジェクトとして特定された例を示す。また、図6の例では、取引対象のオブジェクトOB111が属する第1のカテゴリが「第1カテゴリCT111」である例を示す。また、図6の例では、第1カテゴリCT111よりも下位のカテゴリとして「下位カテゴリCT211」が決定されている例を示す。また、図6の例では、「第1カテゴリCT111」および「下位カテゴリCT211」が紐付けられた学習データが生成されている例を示す。また、また、図6の例では、第1のカテゴリお下位カテゴリとが紐付けられた学習データに基づきモデルMが学習された例を示す。
(出力情報記憶部123について)
出力情報記憶部123は、処理対象の画像をモデルに入力することにより出力(検出)された情報を記憶する。ここで、図7に実施形態にかかる出力情報記憶部123の一例を示す。図7の例では、出力情報記憶部123は、「入力画像ID」、「検出オブジェクト情報」、「検出カテゴリ」といった項目を有する。
「入力画像ID」は、取引対象のオブジェクトや粒度の細かいカテゴリが検出される候補の画像、すなわち処理対象の画像を識別する識別情報を示す。「検出オブジェクト情報」は、モデルを用いて検出された取引対象のオブジェクトを示す情報である。「検出カテゴリ」は、モデルを用いて検出されたカテゴリであって、取引対象のオブジェクトが属するより粒度の細かいカテゴリを示す。
すなわち、図7の例では、図2の例に対応し、領域ARx12により取引対象のオブジェクト(オブジェクトOBx12)が抽出された状態の画像POG11が「検出オブジェクト情報」として格納され、また、領域ARx12により抽出される取引対象のオブジェクトが属するカテゴリとして「五分丈カットソー」が検出された例を示す。
(制御部130について)
図4に戻り、制御部130は、CPUやMPU等によって、学習装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASICやFPGA等の集積回路により実現される。
図4に示すように、制御部130は、取得部131と、特定部132と、決定部133と、生成部134と、学習部135と、検出部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、複数のオブジェクトを含む所定の画像を取得する。例えば、取得部131は、所定の画像として、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内のオブジェクトに対応する第1のカテゴリが対応付けられた画像を取得する。また、取得部131により取得される所定の画像には、第1のカテゴリとは範囲の異なる所定の第2のカテゴリが予め付与される。第2のカテゴリは、例えば、階層構造状のカテゴリである。図1の例では、取得部131は、出品商品を含む商品画像を取得する。このような商品画像は、以下に説明する学習データの生成に用いられる。例えば、取得部131は、学習に用いられる画像を取得する。例えば、取得部131は、サービスSHに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。
また、取得部131は、取得した画像に関する情報(例えば、画像データ)を画像情報記憶部121に格納する。
(特定部132について)
特定部132は、取得部131により取得された画像について、各第1のカテゴリと第2のカテゴリとに基づいて、当該画像で取引対象となっているオブジェクト(取引対象のオブジェクト)を特定するための一連の特定処理を行う。例えば、特定部132は、領域によって抽出されている各オブジェクトに紐付けられる第1のカテゴリ、および、取得された画像自体に紐付けられる第2のカテゴリを取得する。そして、特定部132は、取得した各第1のカテゴリと第2のカテゴリとに基づいて、取得された画像で取引対象となっているオブジェクトを特定する。より詳細には、特定部132は、各第1のカテゴリと、第2のカテゴリとを比較することで、第2のカテゴリに対して関係性のより強い方の第1のカテゴリを特定し、特定した第1のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する。
図1に示す商品画像SMG1の例では、特定部132は、第1のカテゴリとして、領域AR11によって抽出されるオブジェクトOB111に紐付けられる第1カテゴリCT111を取得し、また、領域AR12によって抽出されるオブジェクトOB112に紐付けられる第1カテゴリCT112を取得する。また、特定部132は、商品画像SMG1に紐付けられる第2のカテゴリとして、第2カテゴリCT21を取得する。このような状態において、特定部132は、第1カテゴリCT111および第2カテゴリCT21を比較(マッチング)することで、第1カテゴリCT111および第2カテゴリCT21は互いに関連性を有するか否かを判定する。具体的には、特定部132は、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリ(ファッション、レディース、トップス、Tシャツ、および、ゆったりTシャツ)と、第1カテゴリCT111(トップス)とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT111にマッチングするカテゴリが存在するか否かを判定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第1カテゴリCT111(トップス)に一致する。したがって、かかる例では、特定部132は、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT111にマッチングするカテゴリが存在すると判定する。また、このように判定した結果、特定部132は、第1カテゴリCT111および第2カテゴリCT21は互いに関連性を有すると判定する。
また、特定部132は、第1カテゴリCT112および第2カテゴリCT21を比較(マッチング)することで、第1カテゴリCT112および第2カテゴリCT21は互いに関連性を有するか否かを判定する。具体的には、特定部132は、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリ(ファッション、レディース、トップス、Tシャツ、および、ゆったりTシャツ)と、第1カテゴリCT112(くつ)とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT112にマッチングするカテゴリが存在するか否かを判定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリの中に、第1カテゴリCT112(くつ)に一致(または類似)するカテゴリが存在しない。したがって、かかる例では、特定部132、階層構造を構成する各構成要素としてのカテゴリのうち第1カテゴリCT112にマッチングするカテゴリが存在しないと判定する。また、このように判定した結果、学習装置100は、第1カテゴリCT112および第2カテゴリCT21は互いに関連性を有しないと判定する。
また、上記の点から、特定部132は、第2カテゴリCT21に対して関係性のより強い方の第1のカテゴリとして第1カテゴリCT111を特定し、第1カテゴリCT111が紐付けられるオブジェクトOB111を取引対象のオブジェクトとして特定する。
(決定部133について)
決定部133は、特定部132により特定された取引対象のオブジェクトに紐付けられる第1のカテゴリよりも下位のカテゴリ(下位カテゴリ)を決定する。具体的には、決定部133は、第2のカテゴリに基づいて、第1のカテゴリよりも下位のカテゴリを決定する。
図1に示す商品画像SMG1の例では、特定部132が、第2カテゴリCT21として、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第1カテゴリCT111(トップス)に一致することをきっかけに、オブジェクトOB111を取引対象のオブジェクトとして特定している。このようなことから、決定部133は、第2カテゴリCT21において、「トップス」を基準に最も下位のカテゴリである「ゆったりTシャツ」を、第1カテゴリCT111に対する下位カテゴリとして決定する。より具体的には、決定部133は、「トップス」を基準に最も下位のカテゴリである「ゆったりTシャツ」を、第1カテゴリCT111よりも粒度の細かい下位カテゴリとして決定する。
(生成部134について)
生成部134は、学習データを生成する生成処理を行う。例えば、生成部134は、取引対象のオブジェクトに対応する第1のカテゴリと、このオブジェクトを含む画像に付与される第2のカテゴリとを紐付けることにより学習に用いる学習データを生成する。例えば、図1に示すように、生成部134は、「画像ID」および「対象オブジェクト情報」の組合せ毎に、「第1のカテゴリ」と「下位カテゴリ」とを紐付けることで学習データを生成する。
また、生成部134は、生成した学習データを学習データ記憶部122に格納する。
(学習部135について)
学習部135は、複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、この複数のオブジェクトを含む画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。例えば、学習部135は、第1のカテゴリと、第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを含む領域を、取引対象のオブジェクトを含む領域として出力するようにモデルを学習する。例えば、学習部135は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第2のカテゴリと関係性のより強い第1のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルを学習する。
また、学習部135は、第1のカテゴリと、第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第2のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルを学習する。例えば、学習部135は、第1のカテゴリのうち、当該第1のカテゴリよりも下位の第2のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、第2のカテゴリを出力するようにモデルを学習する。
〔3.処理手順〕
次に、図8を用いて、実施形態にかかる学習処理の手順について説明する。図8は、実施形態にかかる学習処理手順を示すフローチャートである。
まず、取得部131は、複数のオブジェクトを含む画像であって、学習に用いられる画像を取得する(ステップS101)。例えば、取得部131は、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内のオブジェクトに対応する第1のカテゴリが対応付けられた画像であって、第1のカテゴリとは粒度の異なる第2のカテゴリが付与された画像を取得する。
次に、特定部132は、取得部131により取得された画像中の各オブジェクト(領域によって抽出されている各オブジェクト)に紐付けられる第1のカテゴリ、および、当該画像に紐付けられる第2のカテゴリを取得する(ステップS102)。次に、特定部132は、各第1のカテゴリと、第2のカテゴリとを比較し、第2のカテゴリに対して関係性のより強い方の第1のカテゴリを特定する(ステップS103)。そして、特定部132は、取得部131により取得された画像に含まれるオブジェクトのうち、ステップS103で特定した第1のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する(ステップS104)。
次に、決定部133は、ステップS104で特定された取引対象のオブジェクトに紐付けられる第1のカテゴリよりも下位のカテゴリを決定する(ステップS105)。具体的には、決定部133は、取引対象のオブジェクトを含む画像に紐付けられる第2のカテゴリに基づいて、第1のカテゴリよりも下位のカテゴリを決定する。
次に、生成部134は、取引対象のオブジェクトに対応する第1のカテゴリと、このオブジェクトを含む画像に付与される第2のカテゴリとを紐付けることにより学習に用いる学習データを生成する(ステップS106)。例えば、生成部134は、取引対象のオブジェクトに対応する第1のカテゴリと、この第1のカテゴリよりも下位のカテゴリとを紐付けることで学習データを生成する。
次に、学習部135は、生成部134により生成された学習データに基づいて、モデルを学習する(ステップS107)。具体的には、学習部135は、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。また、学習部135は、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトが属するカテゴリとして、これまでのカテゴリよりも下位のカテゴリを出力するようにモデルを学習する。
このような状態において、検出部13は、処理対象の画像入力を受け付けたか否かを判定する(ステップS108)。検出部136は、処理対象の画像入力を受け付けていない場合には(ステップS108;No)、受け付けるまで待機する。一方、検出部136は、処理対象の画像入力を受け付けた場合には(ステップS108;Yes)、処理対象の画像をモデルに入力し、モデルによる出力情報に基づき取引対象のオブジェクト、および、取引対象のオブジェクトが属するカテゴリ検出する(ステップS109)。
〔4.ハードウェア構成〕
また、上記実施形態にかかる学習装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。図9は、学習装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網50を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網50を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態にかかる学習装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網50を介してこれらのプログラムを取得してもよい。
〔5.その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 学習システム
10 端末装置
100 学習装置
120 記憶部
121 画像情報記憶部
122 学習データ記憶部
123 出力情報記憶部
130 制御部
131 取得部
132 特定部
133 決定部
134 生成部
135 学習部
136 検出部

Claims (7)

  1. 複数のオブジェクトを含む所定の画像を取得する取得部と、
    前記複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、前記所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する学習部と
    を有することを特徴とする学習装置。
  2. 前記取得部は、前記所定の画像として、前記複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内の前記オブジェクトに対応する前記第1のカテゴリが対応付けられた画像を取得し、
    前記学習部は、前記第1のカテゴリと、前記第2のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、前記処理対象の画像に対して予め付与される前記カテゴリによって示唆されるオブジェクトを含む領域を、前記取引対象のオブジェクトを含む領域として出力するように前記モデルを学習する
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記学習部は、前記処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、前記第2のカテゴリと関係性のより強い前記第1のカテゴリが対応付けられた領域内のオブジェクトを、前記取引対象のオブジェクトとして出力するようにモデルを学習する
    ことを特徴とする請求項1または2に記載の学習装置。
  4. 前記学習部は、前記第1のカテゴリと、前記第2のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記第2のカテゴリに基づくカテゴリであって、前記取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、前記取引対象のオブジェクトが属するカテゴリとして出力するように前記モデルを学習する
    ことを特徴とする請求項1~3のいずれか1つに記載の学習装置。
  5. 前記学習部は、前記第1のカテゴリのうち、当該第1のカテゴリよりも下位の前記第2のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、前記取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、前記第2のカテゴリを出力するように前記モデルを学習する
    ことを特徴とする請求項4に記載の学習装置。
  6. 学習装置が実行する学習方法であって、
    複数のオブジェクトを含む所定の画像を取得する取得工程と、
    前記複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、前記所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する学習工程と
    を含むことを特徴とする学習方法。
  7. 複数のオブジェクトを含む所定の画像を取得する取得手順と、
    前記複数のオブジェクトそれぞれに対応する各カテゴリである第1のカテゴリと、前記所定の画像に対して予め付与される第2のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する学習手順と
    をコンピュータに実行させることを特徴とする学習プログラム。
JP2019170025A 2019-09-19 2019-09-19 学習装置、学習方法および学習プログラム Active JP7021161B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019170025A JP7021161B2 (ja) 2019-09-19 2019-09-19 学習装置、学習方法および学習プログラム
JP2022015744A JP7457738B2 (ja) 2019-09-19 2022-02-03 情報処理装置、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019170025A JP7021161B2 (ja) 2019-09-19 2019-09-19 学習装置、学習方法および学習プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022015744A Division JP7457738B2 (ja) 2019-09-19 2022-02-03 情報処理装置、情報処理方法および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2021047662A JP2021047662A (ja) 2021-03-25
JP7021161B2 true JP7021161B2 (ja) 2022-02-16

Family

ID=74876384

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019170025A Active JP7021161B2 (ja) 2019-09-19 2019-09-19 学習装置、学習方法および学習プログラム
JP2022015744A Active JP7457738B2 (ja) 2019-09-19 2022-02-03 情報処理装置、情報処理方法および情報処理プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022015744A Active JP7457738B2 (ja) 2019-09-19 2022-02-03 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
JP (2) JP7021161B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221868A1 (ja) 2016-06-24 2017-12-28 サイジニア株式会社 サーバ装置、端末装置、および情報処理方法
JP2018190293A (ja) 2017-05-10 2018-11-29 ヤフー株式会社 検索装置、検索方法および検索プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6005837B2 (ja) 2013-02-27 2016-10-12 株式会社日立製作所 画像解析装置、画像解析システム、画像解析方法
US10410096B2 (en) 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
JP2018045551A (ja) * 2016-09-16 2018-03-22 ヤフー株式会社 決定装置、決定方法および決定プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221868A1 (ja) 2016-06-24 2017-12-28 サイジニア株式会社 サーバ装置、端末装置、および情報処理方法
JP2018190293A (ja) 2017-05-10 2018-11-29 ヤフー株式会社 検索装置、検索方法および検索プログラム

Also Published As

Publication number Publication date
JP7457738B2 (ja) 2024-03-28
JP2021047662A (ja) 2021-03-25
JP2022062177A (ja) 2022-04-19

Similar Documents

Publication Publication Date Title
US11423636B2 (en) Saliency-based object counting and localization
US10747826B2 (en) Interactive clothes searching in online stores
CN107330451B (zh) 基于深度卷积神经网络的服装属性检索方法
US20160225053A1 (en) Mobile visual commerce system
US20190205962A1 (en) Computer Vision and Image Characteristic Search
US9678989B2 (en) System and method for use of images with recognition analysis
US20160042250A1 (en) Interactive content generation
JP2019537120A (ja) 画像解析および予測に基づく視覚検索
US9830534B1 (en) Object recognition
US9727620B2 (en) System and method for item and item set matching
US9424466B2 (en) Shoe image retrieval apparatus and method using matching pair
US20210073890A1 (en) Catalog-based image recommendations
KR102517961B1 (ko) 사용자 선택 의류를 기반으로 의류 추천 정보를 제공하는 방법, 이를 이용하는 서버 및 프로그램
JP2013045122A (ja) 画像検索装置、画像検索方法、およびプログラム
Becker et al. Mad for visual tracker fusion
Du et al. Amazon shop the look: A visual search system for fashion and home
Gutierrez et al. Deep learning for automated tagging of fashion images
JP7021161B2 (ja) 学習装置、学習方法および学習プログラム
JP7106504B2 (ja) 学習装置、学習方法および学習プログラム
JP7179705B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Withurat et al. Personal color analysis using color space algorithm
Sun et al. Product Re-identification System in Fully Automated Defect Detection
Shah et al. E-commerce Products Image Classification using EfficientNetB5 with Transfer Learning
Frikha et al. Semantic attributes for people’s appearance description: an appearance modality for video surveillance applications
Thwe et al. Accurate fashion and accessories detection for mobile application based on deep learning.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210916

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220203

R150 Certificate of patent or registration of utility model

Ref document number: 7021161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250