JP7106504B2

JP7106504B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7106504B2
Application number: JP2019163971A
Authority: JP
Inventors: 雅二郎岩崎; 修平西村; 拓明田口
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2022-07-26
Anticipated expiration: 2039-09-09
Also published as: JP2021043594A

Description

本発明の実施形態は、学習装置、学習方法および学習プログラムに関する。

近年、多段に接続されたニューロンを有するＤＮＮ（Deep Neural Network）等のモデルを利用して言語認識や画像認識等といった各種分類処理を実現する技術が知られている。例えば、このような技術では、所定の入力情報をモデルに入力した際に、その入力情報に対応する出力情報として利用者が所望する出力情報を出力するようにモデルを学習する。

特開２０１７－１６２０７４号公報

しかしながら、上記の従来技術では、画像中の所定のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定することができるとは限らない。例えば、上述した学習が行われたモデルは、入力情報が有する特徴のうち、利用者が想定している特徴に応じて出力情報を出力しているのか、利用者が想定していない特徴に応じて出力情報を出力しているのかが不明である。このため、上記の従来技術では、画像中の所定のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定することができるとは限らない。

本願は、上記に鑑みてなされたものであって、画像中の所定のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定することができる学習装置、学習方法および学習プログラムを提供することを目的とする。

本願にかかる学習装置は、所定のオブジェクトを含む所定の画像を取得する取得部と、前記所定のオブジェクトの特徴を示す特徴情報と、前記所定のオブジェクトに対応する第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリを出力するようにモデルを学習する学習部とを有することを特徴とする。

実施形態の一態様によれば、画像中の所定の対象物が属するカテゴリとしてより粒度の細かいカテゴリを特定することができるといった効果を奏する。

図１は、実施形態にかかる学習処理の一例を示す図である。図２は、実施形態にかかる学習システムの構成例を示す図である。図３は、実施形態にかかる学習装置の構成例を示す図である。図４は、実施形態にかかる画像情報記憶部の一例を示す図である。図５は、実施形態にかかる学習データ記憶部の一例を示す図である。図６は、実施形態にかかる出力情報記憶部の一例を示す図である。図７は、実施形態にかかる学習処理手順を示すフローチャートである。図８は、学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願にかかる学習装置、学習方法および学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ説明する。なお、この実施形態により本願にかかる学習装置、学習方法および学習プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．学習処理の一例〕
まず、図１を用いて、実施形態にかかる学習処理の一例について説明する。図１は、実施形態にかかる学習処理の一例を示す図である。実施形態にかかる学習処理は、学習装置１００によって行われる。

図１の説明に先立って、図２を用いて、実施形態にかかる学習システムについて説明する。図２は、実施形態にかかる学習システム１の構成例を示す図である。実施形態にかかる学習システム１は、図２に示すように、端末装置１０と、学習装置１００とを含む。端末装置１０、学習装置１００は、ネットワークＮを介して有線または無線により通信可能に接続される。なお、図２に示す学習システム１には、複数台の端末装置１０や、複数台の学習装置１００が含まれてよい。

端末装置１０は、所定の利用者によって利用される情報処理端末である。端末装置１０は、例えば、所定の画像中に写されるオブジェクトに対して、当該オブジェクトが属するカテゴリをラベル付与したいと考える利用者によって利用される情報処理端末である。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等である。例えば、端末装置１０は、利用者の操作に従って、学習装置１００に画像を入力する。

ここで、実施形態にかかる学習処理が行われるにあたっての前提について説明する。まず、実施形態にかかる利用者（例えば、上記端末装置１０の利用者）は、学習装置１００を管理する管理主であるとともに、様々な店舗から出品されてきた商品を一元管理して、エンドユーザに販売するショッピングサービス（以下、「サービスＳＨ」と表記する場合がある）を提供しているものとする。このようなショッピングサービスは、例えば、電子モール等とも呼ばれる。店舗は、サービスＳＨに商品を出品する場合、出品させる商品（出品商品）に関する各種情報とともに、出品商品の画像（商品画像）を入稿する。

このような状態において、利用者は、商品画像に対して、商品画像に写される取引対象のオブジェクトを所定の領域で囲むと共に、この領域で囲まれたオブジェクトに当該オブジェクトが属する大まかな（粒度の粗い）カテゴリをラベル付けする場合がある。一例として、人物が取引対象のコートを着用している様子の商品画像ＩＭＧがあるとする。かかる例では、コートが取引対象のオブジェクトの一例となる。そうすると、利用者は、商品画像ＩＭＧにおいてコートが映されている部分の画像を領域で囲んだうえで、コートが属する大まかなカテゴリとして、例えば、「アウター」をラベル付与する場合がある。

ここで、このコートが例えば「チェスターコート」等といったより粒度の細かいカテゴリに分類させることのできる商品であったとしても、手作業でこのような細かなカテゴリを判断してラベル付与することには困難を伴う。さらには、商品画像の数が膨大であることを考慮すると、このようなラベル付与はもはや非現実的である。一方で、上記のようにより粒度の細かいカテゴリをラベル付与することができれば、例えば、商品検索の際によりピンポイントな商品を検索することができるようになり便利である。

よって、実施形態にかかる学習装置１００による学習処理は、このような前提を踏まえて、画像（例えば、商品画像）中の所定のオブジェクト（例えば、出品商品）が属するカテゴリとしてより粒度の細かいカテゴリを効率的に特定することを目的として成されるものである。なお、粒度の細かいカテゴリとは、あるカテゴリに対してより下位のカテゴリを意味する。また、粒度の細かいカテゴリとは、あるカテゴリがカバーする検索範囲より狭い検索範囲をカバーするカテゴリを意味するものでもある。

具体的には、実施形態にかかる学習装置１００は、所定のオブジェクトを含む所定の画像を取得し、所定のオブジェクトの特徴を示す特徴情報と、所定のオブジェクトに対応する第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリを出力するようにモデルを学習する。例えば、学習装置１００は、所定の画像として、所定のオブジェクトが抽出された領域に対して当該領域内の所定のオブジェクトに対応する第１のカテゴリが付された画像を取得する。

また、学習装置１００は、所定のオブジェクトの特徴を示す特徴情報と、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第２のカテゴリに基づくカテゴリであって、対象オブジェクトから検出されるカテゴリよりも下位のカテゴリを、当該対象オブジェクトが属するカテゴリとして出力するように前記モデルを学習する。より詳細には、学習装置１００は、特徴情報と、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、処理対象の画像に含まれるオブジェクトのうち、取引対象となる１の対象オブジェクトと、当該対象オブジェクトが属するカテゴリを出力するようにモデルを学習する。

ここからは、実施形態にかかる学習処理の一例について説明する。図１の例では、学習装置１００は、出品商品を含む商品画像を取得する（ステップＳ１１）。このような商品画像は、以下に説明する学習データの生成に用いられる。したがって、学習装置１００は、学習に用いられる画像を取得する。例えば、学習装置１００は、サービスＳＨに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。例えば、かかる商品画像が学習装置１００内の所定の記憶部に格納されている場合には、学習装置１００は、この所定の記憶部から商品画像を取得する。また、かかる商品画像が例えば任意の外部装置に格納されている場合には、学習装置１００は、この外部装置から商品画像を取得する。

図１の例では、学習装置１００は、ステップＳ１１において、商品画像ＳＭＧ１、商品画像ＳＭＧ２、商品画像ＳＭＧ３という３つの商品画像を取得しているが、取得される商品画像の数が限定されないことはいうまでもない。各商品画像について説明する。

まず、商品画像ＳＭＧ１について説明する。図１の例では、商品画像ＳＭＧ１は、利用者によって領域ＡＲ１が設定されることにより領域ＡＲ１によって取引対象のＴシャツが抽出されるとともに、抽出された領域ＡＲ１（抽出された領域ＡＲ１に含まれる画像、あるいは、Ｔシャツ、ともいえる）に対してカテゴリ「アウター」を示すラベルＣＴ１１が付与されている。この点、図１では、利用者は、商品画像ＳＭＧ１においてＴシャツが映されている部分の画像を領域ＡＲ１で囲んだうえで、Ｔシャツが属する大まかなカテゴリとして、「アウター」を示すラベルＣＴ１１を付与している、と言い換えることができる。また、かかる例では、「Ｔシャツ」は、所定のオブジェクトの一例であるため、「商品画像ＳＭＧ１」は、所定のオブジェクトを含む所定の画像の一例といえる。また、かかる例では、「アウター」は、所定のオブジェクトに対応する第１のカテゴリの一例である。以下、第１のカテゴリとしての「アウター」を「第１カテゴリＣＴ１１」と表記する場合がある。

また、図１の例では、商品画像ＳＭＧ１には、階層構造のカテゴリ「ファッション＞レディース＞トップス＞Ｔシャツ＞ゆったりＴシャツ」である商品カテゴリＣＴ２１が付与されている。商品カテゴリＣＴ２１は、例えば、商品画像ＳＭＧ１の入稿元によって登録される。また、商品カテゴリＣＴ２１は、第１のカテゴリとは範囲の異なる所定の第２のカテゴリの一例である。以下、第２のカテゴリとしての「ファッション＞レディース＞トップス＞Ｔシャツ＞ゆったりＴシャツ」を「第２カテゴリＣＴ２１」と表記する場合がある。

次に、商品画像ＳＭＧ２について説明する。図１の例では、商品画像ＳＭＧ２は、利用者によって領域ＡＲ２が設定されることにより領域ＡＲ２によって取引対象のスカートが抽出されるとともに、抽出された領域ＡＲ２（抽出された領域ＡＲ２に含まれる画像、あるいは、スカート、ともいえる）に対してカテゴリ「ボトムス」を示すラベルＣＴ１２が付与されている。この点、図１では、利用者は、商品画像ＳＭＧ２においてスカートが映されている部分の画像を領域ＡＲ２で囲んだうえで、スカートが属する大まかなカテゴリとして、「ボトムス」を示すラベルＣＴ１２を付与している、と言い換えることができる。また、かかる例では、「スカート」は、所定のオブジェクトの一例であるため、「商品画像ＳＭＧ２」は、所定のオブジェクトを含む所定の画像の一例といえる。また、かかる例では、「ボトムス」は、所定のオブジェクトに対応する第１のカテゴリの一例である。以下、第１のカテゴリとしての「ボトムス」を「第１カテゴリＣＴ１２」と表記する場合がある。

また、図１の例では、商品画像ＳＭＧ２には、階層構造のカテゴリ「ファッション＞レディース＞ボトムス＞スカート＞ミモレスカート」である商品カテゴリＣＴ２２が付与されている。商品カテゴリＣＴ２２は、例えば、商品画像ＳＭＧ２の入稿元によって登録される。また、商品カテゴリＣＴ２２は、第１のカテゴリとは範囲の異なる所定の第２のカテゴリの一例である。以下、第２のカテゴリとしての「ファッション＞レディース＞ボトムス＞スカート＞ミモレスカート」を「第２カテゴリＣＴ２２」と表記する場合がある。

次に、商品画像ＳＭＧ３について説明する。図１の例では、商品画像ＳＭＧ３は、利用者によって領域ＡＲ３が設定されることにより領域ＡＲ３によって取引対象のキャップが抽出されるとともに、抽出された領域ＡＲ３（抽出された領域ＡＲ３に含まれる画像、あるいは、キャップ、ともいえる）に対してカテゴリ「帽子」を示すラベルＣＴ１３が付与されている。この点、図１では、利用者は、商品画像ＳＭＧ３においてキャップが映されている部分の画像を領域ＡＲ３で囲んだうえで、キャップが属する大まかなカテゴリとして、「帽子」を示すラベルＣＴ１３を付与している、と言い換えることができる。また、かかる例では、「キャップ」は、所定のオブジェクトの一例であるため、「商品画像ＳＭＧ３」は、所定のオブジェクトを含む所定の画像の一例といえる。また、かかる例では、「帽子」は、所定のオブジェクトに対応する第１のカテゴリの一例である。以下、第１のカテゴリとしての「帽子」を「第１カテゴリＣＴ１３」と表記する場合がある。

また、図１の例では、商品画像ＳＭＧ３には、階層構造のカテゴリ「ファッション＞レディース＞小物＞帽子＞麦わらキャスケット」である商品カテゴリＣＴ２３が付与されている。商品カテゴリＣＴ２３は、例えば、商品画像ＳＭＧ３の入稿元によって登録される。また、商品カテゴリＣＴ２３は、第１のカテゴリとは範囲の異なる所定の第２のカテゴリの一例である。以下、第２のカテゴリとしての「ファッション＞レディース＞小物＞帽子＞麦わらキャスケット」を「第２カテゴリＣＴ２３」と表記する場合がある。

次に、学習装置１００は、第２のカテゴリに基づいて、第１のカテゴリに置きかわる代替カテゴリを決定する決定処理を行う（ステップＳ１２）。例えば、学習装置１００は、商品画像から第１のカテゴリおよび第２のカテゴリを取得し、第２のカテゴリに基づいて、第１のカテゴリより下位のカテゴリである下位カテゴリを代替カテゴリとして決定する。

商品画像ＳＭＧ１の例では、学習装置１００は、第１カテゴリＣＴ１１および第２カテゴリＣＴ２１とを比較し、第２カテゴリＣＴ２１のうち第１カテゴリＣＴ１１にマッチングするカテゴリを特定することで、特定したカテゴリよりも下位のカテゴリを代替カテゴリとして決定する。詳細には、学習装置１００は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１（アウター）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１にマッチングするカテゴリを特定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１（アウター）におよそ一致する。

したがって、学習装置１００は、第２カテゴリＣＴ２１のうち第１カテゴリＣＴ１１にマッチングするカテゴリとして「トップス」を特定することで、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を代替カテゴリとして決定する。以下、「ゆったりＴシャツ」を「代替カテゴリＣＴ２１１」と表記する場合がある。

次に、商品画像ＳＭＧ２の例では、学習装置１００は、第１カテゴリＣＴ１２および第２カテゴリＣＴ２２とを比較し、第２カテゴリＣＴ２２のうち第１カテゴリＣＴ１２にマッチングするカテゴリを特定することで、特定したカテゴリよりも下位のカテゴリを代替カテゴリとして決定する。詳細には、学習装置１００は、第２カテゴリＣＴ２２として、階層構造を構成する各構成要素としてのカテゴリ（ファッション＞レディース＞ボトムス＞スカート＞ミモレスカート）と、第１カテゴリＣＴ１１（ボトムス）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１２にマッチングするカテゴリを特定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「ボトムス」が、第１カテゴリＣＴ１２（ボトムス）に一致する。

したがって、学習装置１００は、第２カテゴリＣＴ２２のうち第１カテゴリＣＴ１２にマッチングするカテゴリとして「ボトムス」を特定することで、「ボトムス」を基準に最も下位のカテゴリである「ミモレスカート」を代替カテゴリとして決定する。以下、「ミモレスカート」を「代替カテゴリＣＴ２２１」と表記する場合がある。

次に、商品画像ＳＭＧ３の例では、学習装置１００は、第１カテゴリＣＴ１３および第２カテゴリＣＴ２３とを比較し、第２カテゴリＣＴ２３のうち第１カテゴリＣＴ１３にマッチングするカテゴリを特定することで、特定したカテゴリよりも下位のカテゴリを代替カテゴリとして決定する。詳細には、学習装置１００は、第２カテゴリＣＴ２３として、階層構造を構成する各構成要素としてのカテゴリ（ファッション＞レディース＞小物＞帽子＞麦わらキャスケット）と、第１カテゴリＣＴ１３（帽子）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１３にマッチングするカテゴリを特定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「帽子」が、第１カテゴリＣＴ１３（キャップ）に一致する。

したがって、学習装置１００は、第２カテゴリＣＴ２３のうち第１カテゴリＣＴ１３にマッチングするカテゴリとして「帽子」を特定することで、「帽子」を基準に最も下位のカテゴリである「麦わらキャスケット」を代替カテゴリとして決定する。以下、「麦わらキャスケット」を「代替カテゴリＣＴ２３１」と表記する場合がある。

また、学習装置１００は、ステップＳ２では、上記のように決定した代替カテゴリを第１のカテゴリに対して置きかえる。なお、学習装置１００は、商品画像に紐付けられる情報であれば、第２のカテゴリ以外の他の情報を基に代替カテゴリを決定することができる。ステップＳ１２の例では、学習装置１００が、入稿元により商品画像に対して予め設定された階層構造状の第２のカテゴリの中から代替カテゴリを決定する例を示した。しかし、学習装置１００は、例えば、商品画像中の取引対象のオブジェクトが紹介される商品ページに表示される商品説明文から、第１のカテゴリに対応する代替カテゴリを決定してもよい。

次に、学習装置１００は、学習データを生成する生成処理を行う（ステップＳ１３）。まず、学習装置１００は、商品画像から取引対象のオブジェクトを検出する。例えば、学習装置１００は、商品画像に対して利用者により設定された領域に基づいて、取引対象のオブジェクトを検出する。具体的には、学習装置１００は、領域によって抽出される（囲まれる）オブジェクトを取引対象のオブジェクトとして検出する。例えば、学習装置１００は、領域によって抽出される抽出面積の最も多いオブジェクトを取引対象のオブジェクトとして検出する。なお、学習装置１００は、第２のカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして検出してもよい。

商品画像ＳＭＧ１の例では、学習装置１００は、取引対象のオブジェクトとして「Ｔシャツ」を検出する。商品画像ＳＭＧ２の例では、学習装置１００は、取引対象のオブジェクトとして「スカート」を検出する。商品画像ＳＭＧ３の例では、学習装置１００は、取引対象のオブジェクトとして「キャップ」を検出する。

そして、学習装置１００は、検出した取引対象のオブジェクトの特徴を示す特徴情報を取得する。例えば、学習装置１００は、領域ＡＲ１で抽出される画像を解析することにより「Ｔシャツ」の特徴を示す特徴情報を取得する。例えば、学習装置１００は、特徴情報として、「Ｔシャツ」の形状を示すエッジ情報や「Ｔシャツ」の色を示す色彩情報を取得する。図１の例では、学習装置１００は、特徴情報ＦＡ１を取得したものとする。また、学習装置１００は、領域ＡＲ２で抽出される画像を解析することにより「スカート」の特徴を示す特徴情報を取得する。例えば、学習装置１００は、特徴情報として、「スカート」の形状を示すエッジ情報や「スカート」の色を示す色彩情報を取得する。図１の例では、学習装置１００は、特徴情報ＦＡ２を取得したものとする。また、学習装置１００は、領域ＡＲ３で抽出される画像を解析することにより「キャップ」の特徴を示す特徴情報を取得する。図１の例では、学習装置１００は、特徴情報ＦＡ３を取得したものとする。

なお、学習装置１００は、第１のカテゴリを特徴情報として取得してもよい。例えば、学習装置１００は、「Ｔシャツ」の特徴を示す特徴情報として、第１カテゴリＣＴ１１を取得してもよい。また、学習装置１００は、「スカート」の特徴を示す特徴情報として、第１カテゴリＣＴ１２を取得してもよい。また、学習装置１００は、「キャップ」の特徴を示す特徴情報として、第１カテゴリＣＴ１３を取得してもよい。

このような状態において、学習装置１００は、特徴情報と第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する。図１の例では、学習装置１００は、「画像ＩＤ」毎に、「特徴情報」と「代替カテゴリ」とを紐付けることで学習データを生成している。「画像ＩＤ」は商品画像を識別する識別情報を示す。「特徴情報」は、「画像ＩＤ」によって識別される商品画像において取引対象となっているオブジェクトの特徴情報を示す。「代替カテゴリ」は、ステップＳ１２で決定された代替カテゴリを示す。なお、代替カテゴリは、階層構造の第２のカテゴリに含まれる１つのカテゴリであるため、広義には第２のカテゴリとして識別され得る。

図１の例では、学習装置１００は、画像ＩＤ「ＳＭＧ１」によって識別される商品画像ＳＭＧ１について代替カテゴリＣＴ２１１を決定するとともに、商品画像ＳＭＧ１では特徴情報ＦＡ１で特徴付けられるＴシャツが取引対象となっていることにより、特徴情報ＦＡ１と代替カテゴリＣＴ２１１とが紐付けられた学習データを生成している。また、図１の例では、学習装置１００は、画像ＩＤ「ＳＭＧ２」によって識別される商品画像ＳＭＧ２について代替カテゴリＣＴ２２１を決定するとともに、商品画像ＳＭＧ２では特徴情報ＦＡ２で特徴付けられるスカートが取引対象となっていることにより、特徴情報ＦＡ２と代替カテゴリＣＴ２２１とが紐付けられた学習データを生成している。また、図１の例では、学習装置１００は、画像ＩＤ「ＳＭＧ３」によって識別される商品画像ＳＭＧ３について代替カテゴリＣＴ２３１を決定するとともに、商品画像ＳＭＧ３では特徴情報ＦＡ３で特徴付けられるキャップが取引対象となっていることにより、特徴情報ＦＡ３と代替カテゴリＣＴ２３１とが紐付けられた学習データを生成している。

図１の例では、不図示であるが、学習データには、取引対象のオブジェクトを示す情報がさらに含まれてもよい。また、学習データは、学習データ記憶部１２２に格納される。

そして、学習装置１００は、ステップＳ１３で生成した学習データに基づいて、モデルを学習する（ステップＳ１４）。具体的には、学習装置１００は、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリを出力するようにモデルＭを学習する。より具体的には、学習装置１００は、処理対象の画像が入力された場合に、当該処理対象の画像に含まれる対象オブジェクトとして、取引対象のオブジェクトが属するカテゴリを出力するようにモデルＭを学習する。

例えば、学習装置１００は、学習データに基づいて、「特徴情報」と、第１のカテゴリに対して下位の関係にある「代替カテゴリ」（第２のカテゴリ）との関係性を学習する。そして、学習装置１００は、学習した関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリとして、学習データ記憶部１２２に格納される代替カテゴリのうち対象オブジェクトに応じた代替カテゴリを出力するようにモデルＭを学習する。

また、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリとして、利用者によって人手で付与されるレベルの大まかなカテゴリを出力する任意の（既存の）検出器あるとする。そうすると、学習装置１００は、学習データに基づいて、処理対象の画像が入力された場合に、代替カテゴリ（第２のカテゴリ）に基づくカテゴリであって、対象オブジェクトから検出されるカテゴリよりも下位の（粒度の細かい）カテゴリを、当該対象オブジェクトが属するカテゴリとして出力するようにモデルＭを学習する。

なお、モデルの学習（生成）手法については、任意の公知技術が適用可能である。例えば、モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、ＳＶＭ（Support Vector Machine）等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習（ディープラーニング）の技術を用いて行われてもよい。例えば、モデルの生成は、ＤＮＮ（Deep Neural Network）やＲＮＮ（Recurrent Neural Network）やＣＮＮ（Convolutional Neural Network）等の種々のディープラーニングの技術を適宜用いて行われてもよい。

ここで、学習装置１００は、処理対象の画像の入力を受け付けたとする。図１の例では、学習装置１００は、処理対象の画像として、画像ＰＯＧ１の入力を受け付けたとする。かかる場合、学習装置１００は、画像ＰＯＧ１をモデルＭに入力することにより（ステップＳ１５）、画像ＰＯＧ１で取引対象となっているオブジェクトを検出するとともに、当該オブジェクトの属するより粒度の細かいカテゴリを検出する（ステップＳ１６）。例えば、学習装置１００は、図１に示すように、画像ＰＯＧ１をモデルＭに入力した場合に、取引対象のオブジェクトが領域ＡＲ１１で囲まれた状態で出力され、また、カテゴリ「ボーダーカットソー」が出力されたとする。そうすると、学習装置１００は、領域ＡＲ１１で囲まれたオブジェクトを取引対象のオブジェクトとして検出するとともに、このオブジェクトがカテゴリ「ボーダーカットソー」に属することを検出する。

また、取引対象のオブジェクトを示す情報として、例えば、領域ＡＲ１１により取引対象のオブジェクトが抽出された状態の画像ＰＯＧ１、および、カテゴリ「ボーダーカットソー」は、互いに紐付けられて、出力情報記憶部１２３に格納される。カテゴリ「ボーダーカットソー」は、例えば、ユーザから受け付けられた検索クエリに応じた商品画像を検索する際の、ターゲティング情報となり得る。

さて、これまで図１を用いて説明してきたように、実施形態にかかる学習装置１００は、所定のオブジェクトを含む所定の画像を取得し、所定のオブジェクトの特徴を示す特徴情報と、所定のオブジェクトに対応する第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトが属するカテゴリを出力するようにモデルを学習する。

ここで、利用者による手作業、あるいは、上記任意の検出器によれば、画像ＰＯＧ１に含まれるオブジェクトには、大まかなカテゴリとして「Ｔシャツ」程度のカテゴリがラベル付与される可能性はあるが、「ボーダーカットソー」といった取引対象のオブジェクトを詳細に説明する粒度の細かいカテゴリが付与される可能性は低い。しかしながら、実施形態にかかる学習装置１００による上記学習処理によれば、処理対象の画像に含まれる所定のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを効率的かつ高精度に特定することが可能となる。この結果、学習装置１００は、処理対象の画像に含まれる取引対象のオブジェクトに対して、より粒度の細かいカテゴリを付与することができるようになる。また、学習装置１００は、より粒度の細かいカテゴリを付与することで検索クエリに合わないノイズを効果的することができるため、ユーザが望む商品（あるいは、ユーザが望む商品の商品画像）を高精度に検索する検索システムを実現することができる。

〔２．学習装置の構成〕
次に、図３を用いて、実施形態にかかる学習装置１００について説明する。図３は、実施形態にかかる学習装置１００の構成例を示す図である。図３に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。例えば、学習装置１００は、図１で説明した学習処理を行うサーバ装置である。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、例えば、端末装置１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、画像情報記憶部１２１と、学習データ記憶部１２２と、出力情報記憶部１２３とを有する。

（画像情報記憶部１２１について）
画像情報記憶部１２１は、学習に用いられる（学習データの生成に用いられる）画像を記憶する。例えば、画像情報記憶部１２１は、このような画像として、サービスＳＨに対して入稿された商品画像を記憶する。ここで、図４に実施形態にかかる画像情報記憶部１２１の一例を示す。図４の例では、画像情報記憶部１２１は、「画像ＩＤ」、「画像データ」、「第１のカテゴリ」、「第２のカテゴリ」、「代替カテゴリ」といった項目を有する。

「画像ＩＤ」は、オブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「画像データ」は、「画像ＩＤ」によって識別される画像そのものを示す。「第１のカテゴリ」は、「画像ＩＤ」によって識別される画像に対応するカテゴリであって、当該画像に含まれる取引対象のオブジェクトが属する大まかなカテゴリを示す。第１のカテゴリは、例えば、利用者によって手作業でラベル付与されたものであってもよいし、既存の検出器によって検出されたものでもよい。「第２のカテゴリ」は、「画像ＩＤ」によって識別される画像に対して例えば入稿元により予め津六されるカテゴリであって、階層構造状のカテゴリを示す。また、このようなことから、「第２のカテゴリ」は、第１のカテゴリとは範囲の異なるカテゴリである。「代替カテゴリ」は、第１のカテゴリに置きかえられるカテゴリであって、第１のカテゴリより下位のカテゴリである。また、「代替カテゴリ」は、図１に示すステップＳ１２で決定されたカテゴリである。

すなわち、図４の例では、画像ＩＤ「ＳＭＧ１」によって識別される商品画像（商品画像ＳＭＧ１）に含まれる取引対象のオブジェクトは、（例えば、利用者によって）第１カテゴリＣＴ１１に属すると判断され、また、商品画像ＳＭＧ１には第２カテゴリＣＴ２１が予め付与されており、さらに、第１カテゴリＣＴ１１および第２カテゴリＣＴ２１に基づき代替カテゴリＣＴ２１１が決定されている例を示す。なお、かかる例は、図１の例に対応する。

（学習データ記憶部１２２）
学習データ記憶部１２２は、モデルの学習に用いられる学習データに関する情報を記憶する。ここで、図５に実施形態にかかる学習データ記憶部１２２の一例を示す。図５の例では、学習データ記憶部１２２は、「画像ＩＤ」、「特徴情報」、「代替カテゴリ」、「モデル情報」といった項目を有する。

「画像ＩＤ」は、オブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「特徴情報」は、画像ＩＤ「ＳＭＧ１」によって識別される商品画像（商品画像ＳＭＧ１）に含まれる取引対象のオブジェクトの特徴を示す特徴情報である。「代替カテゴリ」は、第１のカテゴリに置きかえられるカテゴリであって、第１のカテゴリより下位のカテゴリである。また、「代替カテゴリ」は、図１に示すステップＳ１２で決定されたカテゴリである。「モデル情報」は、「特徴情報」と「代替カテゴリ」とを紐付けることで生成された学習データに基づき学習されたモデルを示す。

すなわち、図５の例では、画像ＩＤ「ＳＭＧ１」によって識別される商品画像ＳＭＧ１について代替カテゴリＣＴ２１１が決定されるとともに、商品画像ＳＭＧ１では特徴情報ＦＡ１で特徴付けられるオブジェクト（Ｔシャツ）が取引対象となっていることにより、特徴情報ＦＡ１と代替カテゴリＣＴ２１１とが紐付けられた学習データが生成されている例を示す。また、図５の例では、「特徴情報」と「代替カテゴリ」とを紐付けることで生成された学習データに基づきモデルＭが学習された例を示す。なお、かかる例は、図１の例に対応する。

（出力情報記憶部１２３について）
出力情報記憶部１２３は、処理対象の画像をモデルに入力することにより出力（検出）された情報を記憶する。ここで、図６に実施形態にかかる出力情報記憶部１２３の一例を示す。図６の例では、出力情報記憶部１２３は、「入力画像ＩＤ」、「検出オブジェクト情報」、「検出カテゴリ」といった項目を有する。

「入力画像ＩＤ」は、取引対象のオブジェクトや粒度の細かいカテゴリが検出される候補の画像、すなわち処理対象の画像を識別する識別情報を示す。「検出オブジェクト情報」は、モデルを用いて検出された取引対象のオブジェクトを示す情報である。「検出カテゴリ」は、モデルを用いて検出されたカテゴリであって、取引対象のオブジェクトが属するより粒度の細かいカテゴリを示す。

すなわち、図６の例は、図１の例に対応し、領域ＡＲ１１により取引対象のオブジェクトが抽出された状態の画像ＰＯＧ１１が「検出オブジェクト情報」として格納され、また、領域ＡＲ１１により抽出される取引対象のオブジェクトが属するカテゴリとして「ボーダーカットソー」が検出された例を示す。

（制御部１３０について）
図３に戻り、制御部１３０は、ＣＰＵやＭＰＵ等によって、学習装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図３に示すように、制御部１３０は、取得部１３１と、決定部１３２と、生成部１３３と、学習部１３４と、検出部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、所定のオブジェクトを含む所定の画像を取得する。例えば、取得部１３１は、所定の画像として、所定のオブジェクトが抽出された領域に対して当該領域内の所定のオブジェクトに対応する第１のカテゴリが付された画像を取得する。また、取得部１３１により取得される所定の画像には、第１のカテゴリとは範囲の異なる所定の第２のカテゴリが予め付与される。第２のカテゴリは、例えば、階層構造状のカテゴリである。図１の例では、取得部１３１は、出品商品を含む商品画像を取得する。例えば、取得部１３１は、学習に用いられる画像を取得する。例えば、取得部１３１は、サービスＳＨに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。

また、取得部１３１は、取得した画像に関する情報（例えば、画像データ、第１のカテゴリ、第２のカテゴリ）を画像情報記憶部１２１に格納する。

（決定部１３２について）
決定部１３２は、取得部１３１により取得された画像に対して付与される第２のカテゴリに基づいて、かかる画像において取引対象となっているオブジェクトに対応する第１のカテゴリに置きかわる代替カテゴリを決定する決定処理を行う。例えば、決定部１３２は、取得された画像から第１のカテゴリおよび第２のカテゴリを取得し、第２のカテゴリに基づいて、第１のカテゴリより下位のカテゴリである下位カテゴリを代替カテゴリとして決定する。

図１に示す商品画像ＳＭＧ１の例では、決定部１３２は、第１カテゴリＣＴ１１および第２カテゴリＣＴ２１とを比較し、第２カテゴリＣＴ２１のうち第１カテゴリＣＴ１１にマッチングするカテゴリを特定することで、特定したカテゴリよりも下位のカテゴリを代替カテゴリとして決定する。詳細には、決定部１３２は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１（アウター）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１にマッチングするカテゴリを特定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１（アウター）におよそ一致する。したがって、決定部１３２は、第２カテゴリＣＴ２１のうち第１カテゴリＣＴ１１にマッチングするカテゴリとして「トップス」を特定することで、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を代替カテゴリとして決定する。

（生成部１３３について）
生成部１３３は、学習データを生成する生成処理を行う。例えば、生成部１３３は、取得部１３１により取得された画像から取引対象のオブジェクトを検出する。例えば、生成部１３３は、かかる画像に対して利用者により設定された領域に基づいて、取引対象のオブジェクトを検出する。具体的には、生成部１３３は、領域によって抽出される（囲まれる）オブジェクトを取引対象のオブジェクトとして検出する。

また、このような状態において、生成部１３３は、検出した取引対象のオブジェクトの特徴を示す特徴情報を取得する。例えば、生成部１３３は、領域で抽出される画像を解析することにより、取引対象のオブジェクトの特徴を示す特徴情報を取得する。そして、生成部１３３は、特徴情報と第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する。例えば、図１に示すように、生成部１３３は、「画像ＩＤ」毎に、「特徴情報」と「代替カテゴリ」とを紐付けることで学習データを生成する。

また、生成部１３３は、生成した学習データを学習データ記憶部１２２に格納する。

（学習部１３４について）
学習部１３４は、所定のオブジェクトの特徴を示す特徴情報と、所定のオブジェクトに対応する第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクト（例えば、処理対象の画像において取引対象となっているオブジェクト）が属するカテゴリを出力するようにモデルを学習する。例えば、学習部１３４は、特徴情報と、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、対象オブジェクトであって、所定の領域によって抽出された対象オブジェクトが属するカテゴリを出力するようにモデルを学習する。

例えば、学習部１３４は、特徴情報と、前記第２のカテゴリとの関係性（学習データに基づく学習した関係性）に基づいて、処理対象の画像が入力された場合に、第２のカテゴリに基づくカテゴリであって、対象オブジェクトから検出されるカテゴリよりも下位のカテゴリを、当該対象オブジェクトが属するカテゴリとして出力するようにモデルを学習する。また、例えば、学習部１３４は、特徴情報と、第１のカテゴリに対して下位の関係にある第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、対象オブジェクトが属するカテゴリとして、第２のカテゴリを出力するようにモデルを学習する。また、例えば、学習部１３４は、特徴情報と、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、処理対象の画像に含まれるオブジェクトのうち、取引対象となる１の対象オブジェクトと、対象オブジェクトが属するカテゴリを出力するようにモデルを学習する。

（検出部１３５について）
検出部１３５は、処理対象の画像をモデルに入力することにより、出力された情報に基づいて、処理対象の画像で取引対象となっているオブジェクトを検出するとともに、当該オブジェクトの属するより粒度の細かいカテゴリを検出する。また、検出部１３５は、検出した情報を出力情報記憶部１２３に格納する。

〔３．処理手順〕
次に、図７を用いて、実施形態にかかる学習処理の手順について説明する。図７は、実施形態にかかる学習処理手順を示すフローチャートである。

まず、取得部１３１は、所定のオブジェクトを含む画像であって、学習に用いられる画像を取得する（ステップＳ１０１）。例えば、取得部１３１は、所定のオブジェクトに対応する第１のカテゴリ、および、第１のカテゴリとは範囲の異なる第２のカテゴリが付された画像を取得する。

次に、決定部１３２は、取得部１３１により取得された画像に紐付けられる第１のカテゴリ、および、第２のカテゴリを取得する（ステップＳ１０２）。また、決定部１３２は、取得した第１のカテゴリ、および、第２のカテゴリに基づいて、代替カテゴリを決定する（ステップＳ１０３）。例えば、決定部１３２は、取得部１３１により取得された画像において取引対象となっているオブジェクトに対応する第１のカテゴリと、この画像に付与される第２のカテゴリとに基づいて、当該第１のカテゴリに置きかわる代替カテゴリを決定する。

次に、生成部１３３は、取得部１３１により取得された画像から取引対象のオブジェクトを検出する（ステップＳ１０４）。また、生成部１３３は、生成部１３３は、検出した取引対象のオブジェクトの特徴を示す特徴情報を取得する（ステップＳ１０５）。例えば、生成部１３３は、領域で抽出される画像を解析することにより、取引対象のオブジェクトの特徴を示す特徴情報を取得する。そして、生成部１３３は、特徴情報と第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する（ステップＳ１０６）。

学習部１３４は、生成部１３３により生成された学習データに基づいて、モデルを学習する（ステップＳ１０７）。例えば、学習部１３４は、特徴情報と第２のカテゴリとの関係性、すなわち学習データに基づき学習された関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクト（取引対象のオブジェクト）が属するカテゴリを出力するようにモデルを学習する。

このような状態において、検出部１３５は、処理対象の画像入力を受け付けたか否かを判定する（ステップＳ１０８）。検出部１３５は、処理対象の画像入力を受け付けていない場合には（ステップＳ１０８；Ｎｏ）、受け付けるまで待機する。一方、検出部１３５は、処理対象の画像入力を受け付けた場合には（ステップＳ１０８；Ｙｅｓ）、処理対象の画像をモデルに入力し、モデルによる出力情報に基づき取引対象のオブジェクト、および、取引対象のオブジェクトが属するカテゴリ検出する（ステップＳ１０９）。

〔４．ハードウェア構成〕
また、上記実施形態にかかる学習装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、学習装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態にかかる学習装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

〔５．その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１学習システム
１０端末装置
１００学習装置
１２０記憶部
１２１画像情報記憶部
１２２学習データ記憶部
１２３出力情報記憶部
１３０制御部
１３１取得部
１３２決定部
１３３生成部
１３４学習部
１３５検出部

Claims

所定のオブジェクトを含む所定の画像として、前記所定のオブジェクトが抽出された領域に対して当該領域内の前記所定のオブジェクトに対応する第１のカテゴリが付された画像を取得する取得部と、
前記所定のオブジェクトの特徴を示す特徴情報と、前記第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトであって、所定の領域によって抽出された対象オブジェクトが属するカテゴリを出力するようにモデルを学習する学習部と
を有することを特徴とする学習装置。
前記学習部は、前記特徴情報と、前記第２のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記第２のカテゴリに基づくカテゴリであって、前記対象オブジェクトから検出されるカテゴリよりも下位のカテゴリを、当該対象オブジェクトが属するカテゴリとして出力するように前記モデルを学習する
ことを特徴とする請求項１に記載の学習装置。
前記学習部は、前記特徴情報と、前記第１のカテゴリに対して下位の関係にある前記第２のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記対象オブジェクトが属するカテゴリとして、前記第２のカテゴリを出力するようにモデルを学習する
ことを特徴とする請求項１または２に記載の学習装置。
前記学習部は、前記特徴情報と、前記第２のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記処理対象の画像に含まれるオブジェクトのうち、取引対象となる１の前記対象オブジェクトと、当該対象オブジェクトが属するカテゴリを出力するように前記モデルを学習する
ことを特徴とする請求項１～３のいずれか１つに記載の学習装置。
学習装置が実行する学習方法であって、
所定のオブジェクトを含む所定の画像として、前記所定のオブジェクトが抽出された領域に対して当該領域内の前記所定のオブジェクトに対応する第１のカテゴリが付された画像を取得する取得工程と、
前記所定のオブジェクトの特徴を示す特徴情報と、前記第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトであって、所定の領域によって抽出された対象オブジェクトが属するカテゴリを出力するようにモデルを学習する学習工程と
を含むことを特徴とする学習方法。
所定のオブジェクトを含む所定の画像として、前記所定のオブジェクトが抽出された領域に対して当該領域内の前記所定のオブジェクトに対応する第１のカテゴリが付された画像を取得する取得手順と、
前記所定のオブジェクトの特徴を示す特徴情報と、前記第１のカテゴリとは範囲の異なる所定の第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトである対象オブジェクトであって、所定の領域によって抽出された対象オブジェクトが属するカテゴリを出力するようにモデルを学習する学習手順と
をコンピュータに実行させることを特徴とする学習プログラム。