JP7457738B2

JP7457738B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP7457738B2
Application number: JP2022015744A
Authority: JP
Inventors: 雅二郎岩崎; 修平西村; 拓明田口
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-19
Filing date: 2022-02-03
Publication date: 2024-03-28
Anticipated expiration: 2039-09-19
Also published as: JP7021161B2; JP2022062177A; JP2021047662A

Description

本発明の実施形態は、情報処理装置、情報処理方法および情報処理プログラムに関する。

近年、多段に接続されたニューロンを有するＤＮＮ（Deep Neural Network）等のモデルを利用して言語認識や画像認識等といった各種分類処理を実現する技術が知られている。例えば、このような技術では、所定の入力情報をモデルに入力した際に、その入力情報に対応する出力情報として利用者が所望する出力情報を出力するようにモデルを学習する。

特開２０１７－１６２０７４号公報

しかしながら、上記の従来技術では、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるとは限らない。例えば、上述した学習が行われたモデルは、入力情報が有する特徴のうち、利用者が想定している特徴に応じて出力情報を出力しているのか、利用者が想定していない特徴に応じて出力情報を出力しているのかが不明である。このため、上記の従来技術では、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるとは限らない。

本願は、上記に鑑みてなされたものであって、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができる学習装置、学習方法および学習プログラムを提供することを目的とする。

本願にかかる情報処理装置は、複数のオブジェクトを含む所定の画像を取得する取得部と、前記複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリ、および、前記所定の画像に対して予め付与される第２のカテゴリとの関係性と、処理対象の画像に対して予め付与されるカテゴリとに基づいて、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトを検出する検出部とを有することを特徴とする。

実施形態の一態様によれば、画像に含まれる複数のオブジェクトの中から目的のオブジェクトを高精度に抽出することができるといった効果を奏する。

図１は、実施形態にかかる学習処理の一例を示す図である。図２は、実施形態にかかる検出処理の一例を示す図である。図３は、実施形態にかかる学習システムの構成例を示す図である。図４は、実施形態にかかる学習装置の構成例を示す図である。図５は、実施形態にかかる画像情報記憶部の一例を示す図である。図６は、実施形態にかかる学習データ記憶部の一例を示す図である。図７は、実施形態にかかる出力情報記憶部の一例を示す図である。図８は、実施形態にかかる学習処理手順を示すフローチャートである。図９は、学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願にかかる学習装置、学習方法および学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ説明する。なお、この実施形態により本願にかかる学習装置、学習方法および学習プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．学習処理の一例〕
まず、図１を用いて、実施形態にかかる学習処理の一例について説明する。図１は、実施形態にかかる学習処理の一例を示す図である。実施形態にかかる学習処理は、学習装置１００によって行われる。

図１の説明に先立って、図３を用いて、実施形態にかかる学習システムについて説明する。図３は、実施形態にかかる学習システム１の構成例を示す図である。実施形態にかかる学習システム１は、図３に示すように、端末装置１０と、学習装置１００とを含む。端末装置１０、学習装置１００は、ネットワークＮを介して有線または無線により通信可能に接続される。なお、図３に示す学習システム１には、複数台の端末装置１０や、複数台の学習装置１００が含まれてよい。

端末装置１０は、所定の利用者によって利用される情報処理端末である。端末装置１０は、例えば、所定の画像中に複数のオブジェクトが存在する場合に、複数のオブジェクトのうち取引対象のオブジェクトとそれ以外のオブジェクトとを動的に区別できるようにしたいと考える利用者によって利用される情報処理端末である。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等である。例えば、端末装置１０は、利用者の操作に従って、学習装置１００に画像を入力する。

ここで、実施形態にかかる学習処理が行われるにあたっての前提について説明する。まず、実施形態にかかる利用者（例えば、上記端末装置１０の利用者）は、学習装置１００を管理する管理主であるとともに、様々な店舗から出品されてきた商品を一元管理して、エンドユーザに販売するショッピングサービス（以下、「サービスＳＨ」と表記する場合がある）を提供しているものとする。このようなショッピングサービスは、例えば、電子モール等とも呼ばれる。店舗は、サービスＳＨに商品を出品する場合、出品させる商品（出品商品）に関する各種情報とともに、出品商品の画像（商品画像）を入稿する。

このような商品画像では、例えば、複数のオブジェクト（例えば、スカートとブーツ等）を着用した人物が映されていることが多いが、実際には、複数のオブジェクトのうち取引対象のオブジェクトは１つだけ（例えば、スカートだけ）といったことはよくある。このため、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトがいずれであるかを判断し、それを抽出することが望まれる。なぜなら、商品画像の数は非常に膨大であり、このような処理を手作業で行うのは非現実的であるからである。

さらに、取引対象のオブジェクトが属するカテゴリを商品画像に紐付けたいといった背景が存在することも、複数のオブジェクトのうち取引対象のオブジェクトを動的かつ高精度に抽出することが望まれる要因となっている。この点について、人物が取引対象のスカートおよび取引対象ではないブーツを着用している姿が映された商品画像ＩＭＧを例に挙げると、単純に、各オブジェクト（すなわち、スカートとブーツ）を領域で囲む等して個別に抽出するとともに、抽出したオブジェクト毎に当該オブジェクトが属する大まかな（粒度の粗い）カテゴリを特定する検出器は既に存在する。

しかしながら、このような検出器では、複数のオブジェクトのうち取引対象のオブジェクトとそうでないオブジェクトを区別することは出来ないし、取引対象のオブジェクトが属するより粒度の細かいカテゴリを特定することもできない。かといってこのような作業を手作業で行うのは困難を伴う。

より詳細には、商品画像ＩＭＧにおいて、スカートが取引対象のオブジェクトであり、このスカートが例えば、カテゴリ「ボトムス」に対してより粒度の細かいカテゴリ「ミモレスカート」に分類させることのできる商品であったとしても、ここまでの分類を上記検出器で実現させるのは不可能である。一方で、上記のようにより粒度の細かいカテゴリをラベル付与することができれば、例えば、商品検索の際によりピンポイントな商品を検索することができるようになり便利である。

以上の点まとめると、本実施形態では、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出（検出）したうえで、抽出した取引対象のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定（検出）することを前提および目的としている。なお、粒度の細かいカテゴリとは、あるカテゴリに対してより下位のカテゴリを意味する。また、粒度の細かいカテゴリとは、あるカテゴリがカバーする検索範囲より狭い検索範囲をカバーするカテゴリを意味するものでもある。

すなわち、実施形態にかかる学習装置１００は、このような前提のもと、実施形態にかかる学習処理を行う。具体的には、学習装置１００は、複数のオブジェクトを含む所定の画像を取得し、複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリと、所定の画像に対して予め付与される第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。例えば、学習装置１００は、所定の画像として、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内の前記オブジェクトから検出された第１のカテゴリが対応付けられた画像を取得する。

例えば、学習装置１００は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第２のカテゴリと関係性のより強い第１のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルを学習する。

また、学習装置１００は、第１のカテゴリと、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第２のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルを学習する。例えば、学習装置１００は、第１のカテゴリのうち、当該第１のカテゴリよりも下位の第２のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、第２のカテゴリを出力するようにモデルを学習する。

ここからは、実施形態にかかる学習処理の一例について説明する。図１の例では、学習装置１００は、出品商品を含む商品画像を取得する（ステップＳ１１）。このような商品画像は、以下に説明する学習データの生成に用いられる。したがって、学習装置１００は、学習に用いられる画像を取得する。例えば、学習装置１００は、サービスＳＨに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。例えば、かかる商品画像が学習装置１００内の所定の記憶部に格納されている場合には、学習装置１００は、この所定の記憶部から商品画像を取得する。また、かかる商品画像が例えば任意の外部装置に格納されている場合には、学習装置１００は、この外部装置から商品画像を取得する。

図１の例では、学習装置１００は、ステップＳ１１において、商品画像ＳＭＧ１、商品画像ＳＭＧ２、という２つの商品画像を取得しているが、取得される商品画像の数が限定されないことはいうまでもない。各商品画像について説明する。

まず、商品画像ＳＭＧ１について説明する。図１の例では、商品画像ＳＭＧ１は、既存の検出器によってＴシャツであるオブジェクトＯＢ１１１が検出されることにより、さらにオブジェクトＯＢ１１１が領域ＡＲ１１を用いて抽出され、また、既存の検出器によってスニーカーであるオブジェクトＯＢ１１２が検出されることにより、さらにオブジェクトＯＢ１１２が領域ＡＲ１２を用いて抽出されている。また、図１の例では、領域ＡＲ１１（領域ＡＲ１１に含まれる画像、あるいは、オブジェクトＯＢ１１１、ともいえる）は、既存の検出器によってカテゴリ「トップス」を示すラベルＣＴ１１１が付与されている。また、図１の例では、領域ＡＲ１２（領域ＡＲ１２に含まれる画像、あるいは、オブジェクトＯＢ１１２、ともいえる）は、既存の検出器によってカテゴリ「くつ」を示すラベルＣＴ１１２が付与されている。また、かかる例では、領域ＡＲ１１で抽出されるオブジェクトＯＢ１１１、および、領域ＡＲ１２で抽出されるオブジェクトＯＢ１１２は、複数のオブジェクトのうちの１つのオブジェクトである。また、かかる例では、カテゴリ「トップス」、および、カテゴリ「くつ」は、第１のカテゴリの一例である。以下、第１のカテゴリとしての「トップス」を「第１カテゴリＣＴ１１１」と表記する場合がある。また、第１のカテゴリとしての「くつ」を「第１カテゴリＣＴ１１２」と表記する場合がある。

また、図１の例では、商品画像ＳＭＧ１には、階層構造のカテゴリ「ファッション＞レディース＞トップス＞Ｔシャツ＞ゆったりＴシャツ」である商品カテゴリＣＴ２１が付与されている。商品カテゴリＣＴ２１は、例えば、商品画像ＳＭＧ１の入稿元によって登録される。また、商品カテゴリＣＴ２１は、所定の画像に対して予め付与される第２のカテゴリの一例である。以下、第２のカテゴリとしての「ファッション＞レディース＞トップス＞Ｔシャツ＞ゆったりＴシャツ」を「第２カテゴリＣＴ２１」と表記する場合がある。

次に、商品画像ＳＭＧ２について説明する。図１の例では、商品画像ＳＭＧ２は、既存の検出器によってスカートであるオブジェクトＯＢ１２１が検出されることにより、さらにオブジェクトＯＢ１２１が領域ＡＲ２１を用いて抽出され、また、既存の検出器によってハイヒールであるオブジェクトＯＢ１２２が検出されることにより、さらにオブジェクトＯＢ１２２が領域ＡＲ２２を用いて抽出されている。また、図１の例では、領域ＡＲ２１（領域ＡＲ２１に含まれる画像、あるいは、オブジェクトＯＢ１２１、ともいえる）は、既存の検出器によってカテゴリ「ボトムス」を示すラベルＣＴ１２１が付与されている。また、図１の例では、領域ＡＲ２２（領域ＡＲ２２に含まれる画像、あるいは、オブジェクトＯＢ１２２、ともいえる）は、既存の検出器によってカテゴリ「パンプス」を示すラベルＣＴ１２２が付与されている。また、かかる例では、領域ＡＲ２１で抽出されるオブジェクトＯＢ１２１、および、領域ＡＲ２２で抽出されるオブジェクトＯＢ１２２は、複数のオブジェクトのうちの１つのオブジェクトである。また、かかる例では、カテゴリ「ボトムス」、および、カテゴリ「パンプス」は、第１のカテゴリの一例である。以下、第１のカテゴリとしての「ボトムス」を「第１カテゴリＣＴ１２１」と表記する場合がある。また、第１のカテゴリとしての「パンプス」を「第１カテゴリＣＴ１２２」と表記する場合がある。

また、図１の例では、商品画像ＳＭＧ２には、階層構造のカテゴリ「ファッション＞レディース＞ボトムス＞スカート＞ミモレスカート」である商品カテゴリＣＴ２２が付与されている。商品カテゴリＣＴ２２は、例えば、商品画像ＳＭＧ２の入稿元によって登録される。また、商品カテゴリＣＴ２２は、所定の画像に対して予め付与される第２のカテゴリの一例である。以下、第２のカテゴリとしての「ファッション＞レディース＞ボトムス＞スカート＞ミモレスカート」を「第２カテゴリＣＴ２２」と表記する場合がある。

図１の例によると、１つの商品画像には、複数のオブジェクトが含まれることにより、１つの商品画像には、オブジェクトの数に応じた第１のカテゴリが付与されているとともに、１つの第２のカテゴリが付与されている。

このような状態において、学習装置１００は、各商品画像（図１の例では、商品画像ＳＭＧ１およびＳＭＧ２）について、各第１のカテゴリと第２のカテゴリとに基づいて、当該商品画像で取引対象となっているオブジェクト（取引対象のオブジェクト）を特定するための一連の特定処理を行う（ステップＳ１２）。例えば、学習装置１００は、領域によって抽出されている各オブジェクトに紐付けられる第１のカテゴリ、および、商品画像に紐付けられる第２のカテゴリを取得する。そして、学習装置１００は、取得した各第１のカテゴリと第２のカテゴリとに基づいて、当該商品画像で取引対象となっているオブジェクトを特定する。より詳細には、学習装置１００は、各第１のカテゴリと、第２のカテゴリとを比較することで、第２のカテゴリに対して関係性のより強い方の第１のカテゴリを特定し、特定した第１のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する。

このような特定処理について、商品画像ＳＭＧ１の例を用いて説明する。学習装置１００は、第１のカテゴリとして、領域ＡＲ１１によって抽出されるオブジェクトＯＢ１１１に紐付けられる第１カテゴリＣＴ１１１を取得し、また、領域ＡＲ１２によって抽出されるオブジェクトＯＢ１１２に紐付けられる第１カテゴリＣＴ１１２を取得する。また、学習装置１００は、商品画像ＳＭＧ１に紐付けられる第２のカテゴリとして、第２カテゴリＣＴ２１を取得する。

このような状態において、学習装置１００は、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１を比較（マッチング）することで、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１は互いに関連性を有するか否かを判定する。具体的には、学習装置１００は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１１（トップス）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１１にマッチングするカテゴリが存在するか否かを判定する。

かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１１（トップス）に一致する。したがって、かかる例では、学習装置１００は、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１１にマッチングするカテゴリが存在すると判定する。また、このように判定した結果、学習装置１００は、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１は互いに関連性を有すると判定する。

また、学習装置１００は、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１を比較（マッチング）することで、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１は互いに関連性を有するか否かを判定する。具体的には、学習装置１００は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１２（くつ）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１２にマッチングするカテゴリが存在するか否かを判定する。

かかる例では、階層構造を構成する各構成要素としてのカテゴリの中に、第１カテゴリＣＴ１１２（くつ）に一致（または類似）するカテゴリが存在しない。したがって、かかる例では、学習装置１００は、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１２にマッチングするカテゴリが存在しないと判定する。また、このように判定した結果、学習装置１００は、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１は互いに関連性を有しないと判定する。

さて、ステップＳ１２の例によると、学習装置１００は、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１は互いに関連性を有すると判定した一方で、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１は互いに関連性を有しないと判定した。このようなことから、第１カテゴリＣＴ１１１および第１カテゴリＣＴ１１２のうち、第１カテゴリＣＴ１１１の方が、第２カテゴリＣＴ２１に対して関係性がより強いといえる。このようなことから、学習装置１００は、第２カテゴリＣＴ２１に対して関係性のより強い方の第１のカテゴリとして第１カテゴリＣＴ１１１を特定し、第１カテゴリＣＴ１１１が紐付けられるオブジェクトＯＢ１１１を取引対象のオブジェクトとして特定する。また、このようなことから、学習装置１００は、第１カテゴリＣＴ１１１および第１カテゴリＣＴ１１２のうち、第２カテゴリＣＴ２１によって示唆される第１のカテゴリとして第１カテゴリＣＴ１１１を特定する、と言い換えることができる。

なお、ステップＳ１２では、学習装置１００が、商品画像ＳＭＧ１において取引対象となっているオブジェクトを特定する例を示したが、学習装置１００は、商品画像ＳＭＧ２についても同様にして、取引対象のオブジェクトを特定する。詳細な説明は省略するが、図１の例では、学習装置１００は、第１カテゴリＣＴ１２１および第１カテゴリＣＴ１２２のうち、第２カテゴリＣＴ２２に対して関係性のより強い方の第１のカテゴリとして第１カテゴリＣＴ１２１を特定することになる。したがって、学習装置１００は、第１カテゴリＣＴ１２１が紐付けられるオブジェクトＯＢ１２１を取引対象のオブジェクトとして特定する。

次に、学習装置１００は、ステップＳ１２で特定した取引対象のオブジェクトに紐付けられる第１のカテゴリよりも下位のカテゴリ（下位カテゴリ）を決定する（ステップＳ１３）。具体的には、学習装置１００は、第２のカテゴリに基づいて、第１のカテゴリよりも下位のカテゴリを決定する。

ステップＳ１２における商品画像ＳＭＧ１の例では、学習装置１００は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１１（トップス）に一致することをきっかけに、オブジェクトＯＢ１１１を取引対象のオブジェクトとして特定している。このようなことから、学習装置１００は、第２カテゴリＣＴ２１において、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を、第１カテゴリＣＴ１１１に対する下位カテゴリとして決定する。より具体的には、学習装置１００は、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を、第１カテゴリＣＴ１１１よりも粒度の細かい下位カテゴリとして決定する。以下、「ゆったりＴシャツ」を「下位カテゴリＣＴ２１１」と表記する場合がある。

また、ステップＳ１２における商品画像ＳＭＧ２の例では、学習装置１００は、第２カテゴリＣＴ２２として、階層構造を構成する各構成要素としてのカテゴリのうち「ボトムス」が、第１カテゴリＣＴ１２１（ボトムス）に一致することをきっかけに、オブジェクトＯＢ１２１を取引対象のオブジェクトとして特定している。このようなことから、学習装置１００は、第２カテゴリＣＴ２２において、「ボトムス」を基準に最も下位のカテゴリである「ミモレスカート」を、第１カテゴリＣＴ１２１に対する下位カテゴリとして決定する。より具体的には、学習装置１００は、「ボトムス」を基準に最も下位のカテゴリである「ミモレスカート」を、第１カテゴリＣＴ１２１よりも粒度の細かい下位カテゴリとして決定する。以下、「ミモレスカート」を「下位カテゴリＣＴ２２１」と表記する場合がある。

なお、ステップＳ１３で決定された下位カテゴリは、階層構造の第２のカテゴリに含まれる１つのカテゴリであるため、広義には第２のカテゴリとして識別され得る。

次に、学習装置１００は、学習データを生成する生成処理を行う（ステップＳ１４）。例えば、学習装置１００は、取引対象のオブジェクトに対応する第１のカテゴリと、このオブジェクトを含む商品画像に付与される第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する。図１の例では、学習装置１００は、「画像ＩＤ」および「対象オブジェクト情報」の組合せ毎に、「第１のカテゴリ」と「下位カテゴリ」とを紐付けることで学習データを生成している。

「画像ＩＤ」は商品画像を識別する識別情報を示す。「対象オブジェクト情報」は、「画像ＩＤ」によって識別される商品画像において取引対象となっているオブジェクトであって、ステップＳ１２で特定されたオブジェクトを示す情報である。「第１のカテゴリ」は、取引対象のオブジェクトに対応する第１のカテゴリを示す。「下位カテゴリ」は、「第１のカテゴリ」よりも下位のカテゴリであって、ステップＳ１３で決定された下位カテゴリを示す。

図１の例では、学習装置１００は、画像ＩＤ「ＳＭＧ１」によって識別される商品画像ＳＭＧ１について、オブジェクトＯＢ１１１を取引対象として特定している。また、学習装置１００は、オブジェクトＯＢ１１１に対応する第１のカテゴリである第１カテゴリＣＴ１１１よりも下位のカテゴリとして下位カテゴリＣＴ２１１を決定している。このようなことから、図１の例では、学習装置１００は、第１カテゴリＣＴ１１１と下位カテゴリＣＴ２１１とが紐付けられた学習データを生成している。

また、図１の例では、学習装置１００は、画像ＩＤ「ＳＭＧ２」によって識別される商品画像ＳＭＧ２について、オブジェクトＯＢ１２１を取引対象として特定している。また、学習装置１００は、オブジェクトＯＢ１２１に対応する第１のカテゴリである第１カテゴリＣＴ１２１よりも下位のカテゴリとして下位カテゴリＣＴ２２１を決定している。このようなことから、図１の例では、学習装置１００は、第１カテゴリＣＴ１２１と下位カテゴリＣＴ２２１とが紐付けられた学習データを生成している。また、学習データは、学習データ記憶部１２２に格納される。

そして、学習装置１００は、ステップＳ１４で生成した学習データに基づいて、モデルを学習する（ステップＳ１５）。具体的には、学習装置１００は、第１のカテゴリと第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルＭを学習する。処理対象の画像に対して予め付与されるカテゴリとは、例えば、処理対象の画像の入稿元により設定された階層構造状の第２のカテゴリである。例えば、学習装置１００は、ステップＳ１４で生成した学習データに基づいて、「第１のカテゴリ」と、「下位カテゴリ」（第２のカテゴリの一例）との関係性を学習する。そして、学習装置１００は、処理対象の画像が入力された場合に、学習済みの関係性に基づいて、当該処理対象の画像に含まれるオブジェクトが、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるカテゴリであるか否かを判定する。そして、学習装置１００は、処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによってより強く示唆されると判定したオブジェクトについて、取引対象のオブジェクトとして出力するようにモデルＭを学習する。

ここで、図１の例により即した形では、学習装置１００は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第２のカテゴリと関係性のより強い第１のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルＭを学習する。

また、学習装置１００は、第１のカテゴリと、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第２のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルＭを学習する。例えば、学習装置１００は、第１のカテゴリのうち、当該第１のカテゴリよりも下位の第２のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、この下位の第２のカテゴリを出力するようにモデルを学習する。

例えば、学習装置１００は、学習データに基づいて、「第１のカテゴリ」と、「下位カテゴリ」（第２のカテゴリの一例）との関係性を学習する。そして、学習装置１００は、学習した関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれる取引対象オブジェクトが属するカテゴリとして、学習データ記憶部１２２に格納される下位カテゴリのうち取引対象のオブジェクトに応じた下位カテゴリを出力するようにモデルＭを学習する。

なお、モデルの学習（生成）手法については、任意の公知技術が適用可能である。例えば、モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、ＳＶＭ（Support Vector Machine）等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習（ディープラーニング）の技術を用いて行われてもよい。例えば、モデルの生成は、ＤＮＮ（Deep Neural Network）やＲＮＮ（Recurrent Neural Network）やＣＮＮ（Convolutional Neural Network）等の種々のディープラーニングの技術を適宜用いて行われてもよい。

ここで、上記の通り、実施形態にかかる学習処理は、２つの前提（目的）のもとになされるものである。具体的には、実施形態にかかる学習処理は、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出（検出）したいという目的、および、抽出した取引対象のオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを特定（検出）するという目的、といった２つの前提（目的）のもとになされるものである。

ただし、商品画像に複数のオブジェクトが含まれる場合、複数のオブジェクトのうち取引対象のオブジェクトを高精度に抽出（検出）したいという目的に焦点を当てると、学習装置１００は、必ずしも処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトが属するカテゴリとして、これまでのカテゴリ（第１のカテゴリ）よりも下位のカテゴリを出力するようにモデルを学習するという学習処理を行う必要はない。言い換えれば、学習装置１００は、第１のカテゴリと第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルＭを学習するという学習処理を行えばよい。

より詳細には、学習装置１００は、学習データの生成において、第１のカテゴリと関係性を有する第２のカテゴリを紐付ける際に、階層構造の第２のカテゴリのうち、第１のカテゴリよりも下位の下位カテゴリを紐付ける必要はなく、階層構造の第２のカテゴリのうち任意のカテゴリを紐付けてもよい。例えば、学習装置１００は、階層構造の第２のカテゴリをそのまま紐付けてもよい。図１の例（特に、ステップＳ１４の例）でいうと、学習装置１００は、「第１カテゴリＣＴ１１１」および「下位カテゴリＣＴ２１１」を紐付けるのではなく、第１カテゴリＣＴ１１１」に対して、階層構造上の「第２カテゴリＣＴ２１」をそのまま紐付けてもよい。これにより、学習装置１００は、上位下位の関係性にあるカテゴリで構成される第２のカテゴリを用いて、取引対象でないオブジェクトを効果的にフィルタリングすることができるようになる。

ここで、図２を用いて、ステップＳ１５で学習されたモデルＭを利用した情報検出の一例を示す。図２は、実施形態にかかる検出処理の一例を示す図である。図２に示すように、学習装置１００は、モデルＭを学習済みの状態で、処理対象の画像として、画像ＰＯＧ１の入力を受け付けたとする。図２の例では、画像ＰＯＧ１には、オブジェクトＯＢｘ１１とオブジェクトＯＢｘ１２とが含まれる。また、画像ＰＯＧ１には、「ファッション＞レディース＞トップス＞Ｔシャツ＞カットソー」といった階層構造状の第２のカテゴリＣＴｘ１が予め付与されている。

ここで、学習装置１００は、画像ＰＯＧ１を既存の検出器に入力することにより、画像ＰＯＧ１に含まれるオブジェクトを検出するとともに、当該オブジェクトの属するカテゴリを検出する。例えば、学習装置１００は、図２に示すように、画像ＰＯＧ１を検出器に入力した場合に、オブジェクトＯＢｘ１１が領域ＡＲｘ１１で囲まれた状態で出力され、また、カテゴリ「帽子」が出力されたとする。そうすると、学習装置１００は、領域ＡＲｘ１１で囲まれたオブジェクトＯＢｘ１１を検出するとともに、オブジェクトＯＢｘ１１がカテゴリ「帽子」に属することを検出する。また、例えば、学習装置１００は、図２に示すように、画像ＰＯＧ１を検出器に入力した場合に、オブジェクトＯＢｘ１２が領域ＡＲｘ１２で囲まれた状態で出力され、また、カテゴリ「トップス」が出力されたとする。そうすると、学習装置１００は、領域ＡＲｘ１２で囲まれたオブジェクトＯＢｘ１２を検出するとともに、オブジェクトＯＢｘ１２がカテゴリ「トップス」に属することを検出する。

なお、モデルＭが、既存の検出器と同様に、画像中のオブジェクトを検出するとともに、検出したオブジェクトの大まかなカテゴリを検出する機能も有する場合、学習装置１００は、モデルＭに対して画像ＰＯＧ１を入力すればよい。

次に、学習装置１００は、図２に示すように、領域によって各オブジェクトが抽出され、また、各オブジェクトの大まかなカテゴリが検出されている状態の画像ＰＯＧ１をモデルＭに入力する（ステップＳ１６）。そして、学習装置１００は、オブジェクトＯＢｘ１１およびオブジェクトＯＢｘ１２のうち、画像ＰＯＧ１で取引対象となっているオブジェクトを検出するとともに、当該オブジェクトの属するより粒度の細かいカテゴリを検出する（ステップＳ１７）。図２の例では、モデルＭによって、オブジェクトＯＢｘ１１に対応する第１のカテゴリ「帽子」よりも、オブジェクトＯＢｘ１２に対応する第１のカテゴリ「トップス」の方が、第２のカテゴリＣＴｘ１とより強い関係性にある判断される。このようなことから、学習装置１００は、図２に示すように、画像ＰＯＧ１をモデルＭに入力した場合に、取引対象と判断されたオブジェクトＯＢｘ１２が領域ＡＲｘ１２で囲まれた状態で出力され、また、カテゴリ「五分丈カットソー」が出力されたとする。そうすると、学習装置１００は、領域ＡＲｘ１２で囲まれたオブジェクトＯＢｘ１２を取引対象のオブジェクトとして検出するとともに、オブジェクトＯＢｘ１２がカテゴリ「五分丈カットソー」に属することを検出する。

また、取引対象のオブジェクトを示す情報として、例えば、領域ＡＲｘ１２により取引対象のオブジェクトＯＢｘ１２が抽出された状態の画像ＰＯＧ１１、および、カテゴリ「五分丈カットソー」は、互いに紐付けられて、出力情報記憶部１２３に格納される。カテゴリ「五分丈カットソー」は、例えば、ユーザから受け付けられた検索クエリに応じた商品画像を検索する際の、ターゲティング情報となり得る。

さて、これまで図１を用いて説明してきたように、実施形態にかかる学習装置１００は、複数のオブジェクトを含む所定の画像を取得し、複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリと、所定の画像に対して予め付与される第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。

ここで、既存の検出器によれば、処理態様の画像ＰＯＧ１から、オブジェクトＯＢｘ１１およびオブジェクトＯＢｘ１２を検出することができたとしても、オブジェクトＯＢｘ１１およびオブジェクトＯＢｘ１２のうち、いずれが取引対象であるかを判断することあできない。また、既存の検出器によれば、例えば、オブジェクトＯＢｘ１２についてカテゴリ「トップス」程度の大まかなカテゴリが検出される可能性はあるが、「五分丈カットソー」といった取引対象のオブジェクトＯＢｘ１２を詳細に説明する粒度の細かいカテゴリが検出される可能性は低い。しかしながら、実施形態にかかる学習装置１００による上記学習処理によれば、処理対象の画像に含まれる複数のオブジェクトの中から目的のオブジェクト（取引対象のオブジェクト）を高精度に抽出することができるとともに、抽出したオブジェクトが属するカテゴリとしてより粒度の細かいカテゴリを効率的かつ高精度に特定することが可能となる。また、学習装置１００は、より粒度の細かいカテゴリを付与することで検索クエリに合わないノイズを効果的することができるため、ユーザが望む商品（あるいは、ユーザが望む商品の商品画像）を高精度に検索する検索システムを実現することができる。

〔２．学習装置の構成〕
次に、図４を用いて、実施形態にかかる学習装置１００について説明する。図４は、実施形態にかかる学習装置１００の構成例を示す図である。図４に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。例えば、学習装置１００は、図１および図２で説明した学習処理を行うサーバ装置である。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、例えば、端末装置１０との間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、画像情報記憶部１２１と、学習データ記憶部１２２と、出力情報記憶部１２３とを有する。

（画像情報記憶部１２１について）
画像情報記憶部１２１は、学習に用いられる（学習データの生成に用いられる）画像を記憶する。例えば、画像情報記憶部１２１は、このような画像として、サービスＳＨに対して入稿された商品画像を記憶する。ここで、図５に実施形態にかかる画像情報記憶部１２１の一例を示す。図５の例では、画像情報記憶部１２１は、「画像ＩＤ」、「画像データ」といった項目を有する。

「画像ＩＤ」は、複数のオブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「画像データ」は、「画像ＩＤ」によって識別される画像そのものを示す。すなわち、図５の例では、画像ＩＤ「ＳＭＧ１」によって識別される商品画像（商品画ＳＭＧ１）は、画像データＤＡ１で構成される商品画像である例を示す。

（学習データ記憶部１２２について）
学習データ記憶部１２２は、モデルの学習に用いられる学習データに関する情報を記憶する。ここで、図６に実施形態にかかる学習データ記憶部１２２の一例を示す。図５の例では、学習データ記憶部１２２は、「画像ＩＤ」、「対象オブジェクト情報」、「第１のカテゴリ」、「下位カテゴリ」、「モデル情報」といった項目を有する。

「画像ＩＤ」は、複数のオブジェクトを含む商品画像であって、学習に用いられる商品画像を識別する識別情報を示す。「対象オブジェクト情報」は、「画像ＩＤ」によって識別される画像に含まれる複数のオブジェクトのうち、取引対象のオブジェクトであって、図１のステップＳ１２で特定された取引対象のオブジェクトを示す情報である。「下位カテゴリ」は、取引対象のオブジェクトに紐付けられる第１のカテゴリ（例えば、既存の検出器、あるいは、人手によって定められた大まかなカテゴリ）よりも下位のカテゴリであって、取引対象のオブジェクトを含む商品画像に対して予め付与される階層構造状の第２のカテゴリの中から決定されたカテゴリを示す。また、「下位カテゴリ」は、図１に示すステップＳ１３で決定されたカテゴリである。また、「モデル情報」は、「第１のカテゴリ」と「下位カテゴリ」とを紐付けることで生成された学習データに基づき学習されたモデルを示す。

すなわち、図６の例では、画像ＩＤ「ＳＭＧ１」によって識別される商品画像（商品画像ＳＭＧ１）には複数のオブジェクトが含まれることにより、複数のオブジェクトのうちオブジェクトＯＢ１１１が取引対象のオブジェクトとして特定された例を示す。また、図６の例では、取引対象のオブジェクトＯＢ１１１が属する第１のカテゴリが「第１カテゴリＣＴ１１１」である例を示す。また、図６の例では、第１カテゴリＣＴ１１１よりも下位のカテゴリとして「下位カテゴリＣＴ２１１」が決定されている例を示す。また、図６の例では、「第１カテゴリＣＴ１１１」および「下位カテゴリＣＴ２１１」が紐付けられた学習データが生成されている例を示す。また、また、図６の例では、第１のカテゴリと下位カテゴリとが紐付けられた学習データに基づきモデルＭが学習された例を示す。

（出力情報記憶部１２３について）
出力情報記憶部１２３は、処理対象の画像をモデルに入力することにより出力（検出）された情報を記憶する。ここで、図７に実施形態にかかる出力情報記憶部１２３の一例を示す。図７の例では、出力情報記憶部１２３は、「入力画像ＩＤ」、「検出オブジェクト情報」、「検出カテゴリ」といった項目を有する。

「入力画像ＩＤ」は、取引対象のオブジェクトや粒度の細かいカテゴリが検出される候補の画像、すなわち処理対象の画像を識別する識別情報を示す。「検出オブジェクト情報」は、モデルを用いて検出された取引対象のオブジェクトを示す情報である。「検出カテゴリ」は、モデルを用いて検出されたカテゴリであって、取引対象のオブジェクトが属するより粒度の細かいカテゴリを示す。

すなわち、図７の例では、図２の例に対応し、領域ＡＲｘ１２により取引対象のオブジェクト（オブジェクトＯＢｘ１２）が抽出された状態の画像ＰＯＧ１１が「検出オブジェクト情報」として格納され、また、領域ＡＲｘ１２により抽出される取引対象のオブジェクトが属するカテゴリとして「五分丈カットソー」が検出された例を示す。

（制御部１３０について）
図４に戻り、制御部１３０は、ＣＰＵやＭＰＵ等によって、学習装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図４に示すように、制御部１３０は、取得部１３１と、特定部１３２と、決定部１３３と、生成部１３４と、学習部１３５と、検出部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
取得部１３１は、複数のオブジェクトを含む所定の画像を取得する。例えば、取得部１３１は、所定の画像として、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内のオブジェクトに対応する第１のカテゴリが対応付けられた画像を取得する。また、取得部１３１により取得される所定の画像には、第１のカテゴリとは範囲の異なる所定の第２のカテゴリが予め付与される。第２のカテゴリは、例えば、階層構造状のカテゴリである。図１の例では、取得部１３１は、出品商品を含む商品画像を取得する。このような商品画像は、以下に説明する学習データの生成に用いられる。例えば、取得部１３１は、学習に用いられる画像を取得する。例えば、取得部１３１は、サービスＳＨに出品される出品商品が映された商品画像であって、店舗から入稿された商品画像を取得する。

また、取得部１３１は、取得した画像に関する情報（例えば、画像データ）を画像情報記憶部１２１に格納する。

（特定部１３２について）
特定部１３２は、取得部１３１により取得された画像について、各第１のカテゴリと第２のカテゴリとに基づいて、当該画像で取引対象となっているオブジェクト（取引対象のオブジェクト）を特定するための一連の特定処理を行う。例えば、特定部１３２は、領域によって抽出されている各オブジェクトに紐付けられる第１のカテゴリ、および、取得された画像自体に紐付けられる第２のカテゴリを取得する。そして、特定部１３２は、取得した各第１のカテゴリと第２のカテゴリとに基づいて、取得された画像で取引対象となっているオブジェクトを特定する。より詳細には、特定部１３２は、各第１のカテゴリと、第２のカテゴリとを比較することで、第２のカテゴリに対して関係性のより強い方の第１のカテゴリを特定し、特定した第１のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する。

図１に示す商品画像ＳＭＧ１の例では、特定部１３２は、第１のカテゴリとして、領域ＡＲ１１によって抽出されるオブジェクトＯＢ１１１に紐付けられる第１カテゴリＣＴ１１１を取得し、また、領域ＡＲ１２によって抽出されるオブジェクトＯＢ１１２に紐付けられる第１カテゴリＣＴ１１２を取得する。また、特定部１３２は、商品画像ＳＭＧ１に紐付けられる第２のカテゴリとして、第２カテゴリＣＴ２１を取得する。このような状態において、特定部１３２は、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１を比較（マッチング）することで、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１は互いに関連性を有するか否かを判定する。具体的には、特定部１３２は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１１（トップス）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１１にマッチングするカテゴリが存在するか否かを判定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１１（トップス）に一致する。したがって、かかる例では、特定部１３２は、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１１にマッチングするカテゴリが存在すると判定する。また、このように判定した結果、特定部１３２は、第１カテゴリＣＴ１１１および第２カテゴリＣＴ２１は互いに関連性を有すると判定する。

また、特定部１３２は、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１を比較（マッチング）することで、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１は互いに関連性を有するか否かを判定する。具体的には、特定部１３２は、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリ（ファッション、レディース、トップス、Ｔシャツ、および、ゆったりＴシャツ）と、第１カテゴリＣＴ１１２（くつ）とを比較し、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１２にマッチングするカテゴリが存在するか否かを判定する。かかる例では、階層構造を構成する各構成要素としてのカテゴリの中に、第１カテゴリＣＴ１１２（くつ）に一致（または類似）するカテゴリが存在しない。したがって、かかる例では、特定部１３２、階層構造を構成する各構成要素としてのカテゴリのうち第１カテゴリＣＴ１１２にマッチングするカテゴリが存在しないと判定する。また、このように判定した結果、学習装置１００は、第１カテゴリＣＴ１１２および第２カテゴリＣＴ２１は互いに関連性を有しないと判定する。

また、上記の点から、特定部１３２は、第２カテゴリＣＴ２１に対して関係性のより強い方の第１のカテゴリとして第１カテゴリＣＴ１１１を特定し、第１カテゴリＣＴ１１１が紐付けられるオブジェクトＯＢ１１１を取引対象のオブジェクトとして特定する。

（決定部１３３について）
決定部１３３は、特定部１３２により特定された取引対象のオブジェクトに紐付けられる第１のカテゴリよりも下位のカテゴリ（下位カテゴリ）を決定する。具体的には、決定部１３３は、第２のカテゴリに基づいて、第１のカテゴリよりも下位のカテゴリを決定する。

図１に示す商品画像ＳＭＧ１の例では、特定部１３２が、第２カテゴリＣＴ２１として、階層構造を構成する各構成要素としてのカテゴリのうち「トップス」が、第１カテゴリＣＴ１１１（トップス）に一致することをきっかけに、オブジェクトＯＢ１１１を取引対象のオブジェクトとして特定している。このようなことから、決定部１３３は、第２カテゴリＣＴ２１において、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を、第１カテゴリＣＴ１１１に対する下位カテゴリとして決定する。より具体的には、決定部１３３は、「トップス」を基準に最も下位のカテゴリである「ゆったりＴシャツ」を、第１カテゴリＣＴ１１１よりも粒度の細かい下位カテゴリとして決定する。

（生成部１３４について）
生成部１３４は、学習データを生成する生成処理を行う。例えば、生成部１３４は、取引対象のオブジェクトに対応する第１のカテゴリと、このオブジェクトを含む画像に付与される第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する。例えば、図１に示すように、生成部１３４は、「画像ＩＤ」および「対象オブジェクト情報」の組合せ毎に、「第１のカテゴリ」と「下位カテゴリ」とを紐付けることで学習データを生成する。

また、生成部１３４は、生成した学習データを学習データ記憶部１２２に格納する。

（学習部１３５について）
学習部１３５は、複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリと、この複数のオブジェクトを含む画像に対して予め付与される第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。例えば、学習部１３５は、第１のカテゴリと、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを含む領域を、取引対象のオブジェクトを含む領域として出力するようにモデルを学習する。例えば、学習部１３５は、処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、第２のカテゴリと関係性のより強い第１のカテゴリが対応付けられた領域内のオブジェクトを、取引対象のオブジェクトとして出力するようにモデルを学習する。

また、学習部１３５は、第１のカテゴリと、第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、第２のカテゴリに基づくカテゴリであって、取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、取引対象のオブジェクトが属するカテゴリとして出力するようにモデルを学習する。例えば、学習部１３５は、第１のカテゴリのうち、当該第１のカテゴリよりも下位の第２のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、第２のカテゴリを出力するようにモデルを学習する。

〔３．処理手順〕
次に、図８を用いて、実施形態にかかる学習処理の手順について説明する。図８は、実施形態にかかる学習処理手順を示すフローチャートである。

まず、取得部１３１は、複数のオブジェクトを含む画像であって、学習に用いられる画像を取得する（ステップＳ１０１）。例えば、取得部１３１は、複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内のオブジェクトに対応する第１のカテゴリが対応付けられた画像であって、第１のカテゴリとは粒度の異なる第２のカテゴリが付与された画像を取得する。

次に、特定部１３２は、取得部１３１により取得された画像中の各オブジェクト（領域によって抽出されている各オブジェクト）に紐付けられる第１のカテゴリ、および、当該画像に紐付けられる第２のカテゴリを取得する（ステップＳ１０２）。次に、特定部１３２は、各第１のカテゴリと、第２のカテゴリとを比較し、第２のカテゴリに対して関係性のより強い方の第１のカテゴリを特定する（ステップＳ１０３）。そして、特定部１３２は、取得部１３１により取得された画像に含まれるオブジェクトのうち、ステップＳ１０３で特定した第１のカテゴリが紐付けられるオブジェクトを取引対象のオブジェクトとして特定する（ステップＳ１０４）。

次に、決定部１３３は、ステップＳ１０４で特定された取引対象のオブジェクトに紐付けられる第１のカテゴリよりも下位のカテゴリを決定する（ステップＳ１０５）。具体的には、決定部１３３は、取引対象のオブジェクトを含む画像に紐付けられる第２のカテゴリに基づいて、第１のカテゴリよりも下位のカテゴリを決定する。

次に、生成部１３４は、取引対象のオブジェクトに対応する第１のカテゴリと、このオブジェクトを含む画像に付与される第２のカテゴリとを紐付けることにより学習に用いる学習データを生成する（ステップＳ１０６）。例えば、生成部１３４は、取引対象のオブジェクトに対応する第１のカテゴリと、この第１のカテゴリよりも下位のカテゴリとを紐付けることで学習データを生成する。

次に、学習部１３５は、生成部１３４により生成された学習データに基づいて、モデルを学習する（ステップＳ１０７）。具体的には、学習部１３５は、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する。また、学習部１３５は、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトが属するカテゴリとして、これまでのカテゴリよりも下位のカテゴリを出力するようにモデルを学習する。

このような状態において、検出部１３は、処理対象の画像入力を受け付けたか否かを判定する（ステップＳ１０８）。検出部１３６は、処理対象の画像入力を受け付けていない場合には（ステップＳ１０８；Ｎｏ）、受け付けるまで待機する。一方、検出部１３６は、処理対象の画像入力を受け付けた場合には（ステップＳ１０８；Ｙｅｓ）、処理対象の画像をモデルに入力し、モデルによる出力情報に基づき取引対象のオブジェクト、および、取引対象のオブジェクトが属するカテゴリ検出する（ステップＳ１０９）。

〔４．ハードウェア構成〕
また、上記実施形態にかかる学習装置１００は、例えば図９に示すような構成のコンピュータ１０００によって実現される。図９は、学習装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５０を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを、通信網５０を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを、入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態にかかる学習装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを、記録媒体１８００から読み取って実行するが、他の例として、他の装置から、通信網５０を介してこれらのプログラムを取得してもよい。

〔５．その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１学習システム
１０端末装置
１００学習装置
１２０記憶部
１２１画像情報記憶部
１２２学習データ記憶部
１２３出力情報記憶部
１３０制御部
１３１取得部
１３２特定部
１３３決定部
１３４生成部
１３５学習部
１３６検出部

Claims

複数のオブジェクトを含む所定の画像を取得する取得部と、
前記複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリ、および、前記所定の画像に対して予め付与される第２のカテゴリとの関係性に基づき、入力画像に含まれるオブジェクトのうち入力画像に対して予め付与されるカテゴリに対応するオブジェクトを推論するモデルと、処理対象の画像に対して予め付与されるカテゴリとに基づいて、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトを検出する検出部と
を有することを特徴とする情報処理装置。
前記複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリと、前記所定の画像に対して予め付与される第２のカテゴリとの関係性に基づいて、処理対象の画像が入力された場合に、当該処理対象の画像に含まれるオブジェクトのうち、当該処理対象の画像に対して予め付与されるカテゴリによって示唆されるオブジェクトを取引対象のオブジェクトとして出力するようにモデルを学習する学習部をさらに有し、
前記検出部は、前記モデルによる出力結果に基づいて、前記処理対象の画像に含まれるオブジェクトのうち、前記取引対象のオブジェクトを検出する
ことを特徴とする請求項１に記載の情報処理装置。
前記取得部は、前記所定の画像として、前記複数のオブジェクトが個別に抽出された領域それぞれに対して当該領域内の前記オブジェクトに対応する前記第１のカテゴリが対応付けられた画像を取得し、
前記学習部は、前記第１のカテゴリと、前記第２のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、前記処理対象の画像に対して予め付与される前記カテゴリによって示唆されるオブジェクトを含む領域を、前記取引対象のオブジェクトを含む領域として出力するように前記モデルを学習する
ことを特徴とする請求項２に記載の情報処理装置。
前記学習部は、前記処理対象の画像に含まれるオブジェクトが個別に抽出された領域のうち、前記第２のカテゴリと関係性のより強い前記第１のカテゴリが対応付けられた領域内のオブジェクトを、前記取引対象のオブジェクトとして出力するようにモデルを学習する
ことを特徴とする請求項２または３に記載の情報処理装置。
前記学習部は、前記第１のカテゴリと、前記第２のカテゴリとの関係性に基づいて、前記処理対象の画像が入力された場合に、前記第２のカテゴリに基づくカテゴリであって、前記取引対象のオブジェクトから検出されるカテゴリよりも下位のカテゴリを、前記取引対象のオブジェクトが属するカテゴリとして出力するように前記モデルを学習する
ことを特徴とする請求項２～４のいずれか１つに記載の情報処理装置。
前記学習部は、前記第１のカテゴリのうち、当該第１のカテゴリよりも下位の前記第２のカテゴリと関係性のより強いカテゴリが応付けられた領域であって、前記取引対象のオブジェクトが個別に抽出された領域内の当該オブジェクトが属するカテゴリとして、前記第２のカテゴリを出力するように前記モデルを学習する
ことを特徴とする請求項５に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
複数のオブジェクトを含む所定の画像を取得する取得工程と、
前記複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリ、および、前記所定の画像に対して予め付与される第２のカテゴリとの関係性に基づき、入力画像に含まれるオブジェクトのうち入力画像に対して予め付与されるカテゴリに対応するオブジェクトを推論するモデルと、処理対象の画像に対して予め付与されるカテゴリとに基づいて、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトを検出する検出工程と
を含むことを特徴とする情報処理方法。
複数のオブジェクトを含む所定の画像を取得する取得手順と、
前記複数のオブジェクトそれぞれに対応する各カテゴリである第１のカテゴリ、および、前記所定の画像に対して予め付与される第２のカテゴリとの関係性に基づき、入力画像に含まれるオブジェクトのうち入力画像に対して予め付与されるカテゴリに対応するオブジェクトを推論するモデルと、処理対象の画像に対して予め付与されるカテゴリとに基づいて、処理対象の画像に含まれるオブジェクトのうち、取引対象のオブジェクトを検出する検出手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。