JP7348150B2

JP7348150B2 - 学習装置、学習方法、及び学習プログラム

Info

Publication number: JP7348150B2
Application number: JP2020156747A
Authority: JP
Inventors: 凱岡田; 晃矢佐藤; 輝小倉
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2023-09-20
Anticipated expiration: 2040-09-17
Also published as: JP2022050251A

Description

本発明は、学習装置、学習方法、及び学習プログラムに関する。

画像に含まれる情報を推定する様々な技術が提供されている。例えば、画像を用いて、作業者の格好が作業環境等に応じた適正な状態にあるかを監視する技術が提供されている（例えば特許文献１参照）。

特開２０１５－９５２０９号公報

しかしながら、上記の従来技術では、対象者の身体の特定部位の状態に注目した推定を行うことができるが、対象者の身体の所定部位を検出する処理や検出した所定部位の状態を推定する処理等の複数の処理が個別に必要となるため、処理が煩雑になる。そのため、よい簡易な構成により、画像を対象とした処理を可能にすることが望まれており、分類対象に応じて適切な分類結果を出力するモデルを学習することが望まれている。

本願は、上記に鑑みてなされたものであって、分類対象に応じて適切な分類結果を出力するモデルを学習する学習装置、学習方法、及び学習プログラムを提供することを目的とする。

本願に係る学習装置は、入力された画像を対象として分類対象を分類する分類部と、前記画像のうち前記分類対象が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルを学習する学習部、を備えたことを特徴とする。

実施形態の一態様によれば、分類対象に応じて適切な分類結果を出力するモデルを学習することができるという効果を奏する。

図１は、実施形態に係る情報処理システムによる処理の一例を示す図である。図２は、モデルの構成の一例を示す図である。図３は、分類の一例を示す図である。図４は、実施形態に係る学習装置の構成例を示す図である。図５は、実施形態に係る学習用データ記憶部の一例を示す図である。図６は、実施形態に係るモデル情報記憶部の一例を示す図である。図７は、実施形態に係る端末装置の構成例を示す図である。図８は、実施形態に係る学習装置による処理の一例を示すフローチャートである。図９は、実施形態に係る端末装置による処理の一例を示すフローチャートである。図１０は、ハードウェア構成の一例を示す図である。

以下に、本願に係る学習装置、学習方法、及び学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法、及び学習プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．情報処理〕
ここから、図１を用いて、実施形態に係る情報処理の一例について説明する。図１は、実施形態に係る情報処理システムによる処理の一例を示す図である。まず、情報処理システム１の構成について説明する。

図１に示すように、情報処理システム１は、端末装置１０と、学習装置１００とが含まれる。端末装置１０と、学習装置１００とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図１に示した情報処理システム１には、複数台の端末装置１０や、複数台の学習装置１００が含まれてもよい。

学習装置１００は、入力された画像を対象として分類対象を分類し、画像のうち分類対象が含まれる領域に応じて一部を強調し、強調結果に応じて、画像の分類結果を出力するモデルを学習する情報処理装置である。学習装置１００は、入力された画像を対象として分類対象を分類する分類部ＰＴ３と、画像のうち分類対象が含まれる領域に応じて、分類部ＰＴ３が出力する結果のうち一部を強調する強調部ＰＴ４と、強調部ＰＴ４による強調結果に応じて、画像の分類結果を出力する出力部ＰＴ５とを有するモデルＭ１を学習する。また、学習装置１００は、学習したモデルＭ１を端末装置１０に提供する。

端末装置１０は、ユーザによって利用されるデバイス（コンピュータ）である。端末装置１０は、ユーザによる操作を受け付ける。端末装置１０は、学習装置１００から提供されたモデルを用いて推論を行う。端末装置１０は、推論結果を音声によりユーザに通知する。また、端末装置１０は、画像を撮像する画像センサを有し、端末装置１０を利用するユーザを撮像可能である。例えば、端末装置１０は、画像センサとして機能するインカメラやアウトカメラを有する。端末装置１０は、インカメラを有し、画面を見ながら操作するユーザを撮像する。

また、以下では、端末装置１０をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置１０と読み替えることもできる。なお、端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。図１の例では、端末装置１０がタッチパネル機能を有するスマートフォンである場合を示す。

以下、図１を用いて、情報処理の一例を説明する。図１では、ユーザがユーザＩＤ「Ｕ１」により識別されるユーザ（以下、「ユーザＵ１」とする場合がある）である場合を示す。また、図１では、学習装置１００が画像データ（以下単に「画像」ともいう）の入力に対して、その画像に分類対象である人が含まれるか否か、人が含まれる場合その人がマスクを着用しているか否かを分類する分類モデルであるモデルＭ１を学習する場合を一例として説明する。すなわち、図１では、入力された画像がマスク非着用の人が含まれる画像、マスク着用の人が含まれる画像、または人が含まれない画像の３つの分類のいずれであるか示す情報を出力するモデルＭ１を学習装置１００が学習する場合を示す。

なお、以下では、人が含まれるがその人がマスクを着用していない画像が属する分類を第１分類と記載し、マスクを着用している人が含まれる画像が属する分類を第２分類と記載し、人が含まれない画像、すなわち風景画像が属する分類を第３分類と記載する場合がある。以下、情報処理システム１におけるモデルＭ１の学習処理及び、モデルＭ１を用いた推論処理について説明する。

まず、学習装置１００は、機械学習に用いる学習用データ群ＤＳ１を取得する（ステップＳ１１）。学習用データ群ＤＳ１には、モデルの入力として用いられるデータと、そのデータに対応する分類ラベル（正解情報）とのセット（組合せ）が複数含まれる。例えば、画像であるデータＤＴ１は、分類ラベルＣＬ１が対応付けられている。この場合、分類ラベルＣＬ１は、データＤＴ１が第１分類、第２分類、及び第３分類のいずれであるかを示す値（分類ラベル）であるものとする。

そして、学習装置１００は、学習用データ群ＤＳ１を用いて、データの分類結果を示す分類ラベルの出力を行うモデルＭ１を学習する（ステップＳ１２）。図１では、画像の入力部ＰＴ１の入力層への入力に応じて、出力部ＰＴ５の出力層から分類ラベルを出力するモデルＭ１を概念的に示す。まず、モデルＭ１の構成について図２を参照しつつ、具体的に説明する。図２は、モデルの構成の一例を示す図である。

図１及び図２に示すように、モデルＭ１は、画像が入力される入力部ＰＴ１と、入力部ＰＴ１に入力された画像の特徴を抽出する抽出部ＰＴ２と、分類対象を分類する分類部ＰＴ３と、分類対象が含まれる箇所を強調する強調部ＰＴ４と、分類結果を出力する出力部ＰＴ５とを有する。このように、モデルＭ１は、画像分類のタスクが与えられたときにそのタスクの入力信号から出力結果までを単一のモデルで計算するものであり、いわゆるＥｎｄ－ｔｏ－Ｅｎｄモデル（「Ｅ２Ｅモデル」ともいう）である。Ｅ２Ｅモデルは、例えば、小分けされたタスクを個別に解く必要がないため、学習時のフローを簡単化することができる。また、Ｅ２Ｅモデルは、例えばユーザが利用するデバイス（端末装置１０等）で完結する画像認識等の処理に好適である。以下、モデルＭ１の各構成について説明する。なお、各構成の各部分は既存技術の組合せであり、各部分についての詳細な説明は適宜省略する。

入力部ＰＴ１は、画像が入力される入力層の部分（図２中のＩＮ）を含む。抽出部ＰＴ２は、画像の特徴を抽出するように構成され、図２の例では、ＭｏｂｉｌｅＮｅｔＶ２が用いられる場合を示す。例えば、抽出部ＰＴ２は、認識対象のラベルを出力するＭｏｂｉｌｅＮｅｔＶ２のうちラベルを出力する部分を除いた部分、すなわち画像の特徴を抽出する部分が用いられる。ＭｏｂｉｌｅＮｅｔＶ２のうちラベルを出力する部分を除くことにより、ＭｏｂｉｌｅＮｅｔＶ２を画像の特徴量の抽出器として用いる。このように、ＭｏｂｉｌｅＮｅｔＶ２のような軽量な構成とすることで、処理時間の増大を抑制することができる。なお、抽出部ＰＴ２は、画像の特徴を抽出可能であれば、図２に示す例に限られない。例えば、抽出部ＰＴ２は、画像を対象とするオートエンコーダのエンコード部分であってもよい。

分類部ＰＴ３は、バッチ正規化（Batch Normalization）を行う部分（図２中のＢＮ）と、畳み込み（convolution）を行う部分（図２中の３つのｃｏｎｖ）と、グローバル平均プーリング（Global Average Pooling）を行う部分（図２中の上段のＧＡＰ）とを含む。図２では、分類部ＰＴ３は、抽出部ＰＴ２の処理結果を対象としてバッチ正規化を行い、複数回畳み込みを行った後、その畳み込みの結果を対象に平均値を得るグローバル平均プーリングの処理を行う。なお、図２に示す分類部ＰＴ３の構成は一例に過ぎず、図２に示す例に限られない。

強調部ＰＴ４は、行列積（matrix multiplication）を求める処理を行う部分（図２中の下段のｍａｔｍｕｌ）と、グローバル平均プーリングを行う部分（図２中の上段のＧＡＰ）とを含む。強調部ＰＴ４は、分類部ＰＴ３のバッチ正規化の処理結果と、分類部ＰＴ３の畳み込みの処理結果とを対象として行列積を求めた後、その行列積を求めた結果を対象にＧＡＰの処理を行う。なお、図２に示す強調部ＰＴ４の構成は一例に過ぎず、図２に示す例に限られない。

出力部ＰＴ５は、行列積を求める処理を行う部分（図２中の上段のｍａｔｍｕｌ）と、全結合層（Fully Connected Layer）の部分（図２中の２つのＦＣ）と、分類ラベルを出力する出力層の部分（図２中のＯＵＴ）を含む。これにより、出力部ＰＴ５は、分類部ＰＴ３の処理結果及び強調部ＰＴ４の処理結果を用いて、出力する分類結果を生成する。出力層には、ソフトマックス関数等の活性化関数が用いられる。図２の例では、出力部ＰＴ５は、分類部ＰＴ３の処理結果と、強調部ＰＴ４の処理結果とを対象として行列積を求めた後、複数の全結合層を経て、出力層から分類結果を出力する。なお、図２に示す出力部ＰＴ５の構成は一例に過ぎず、図２に示す例に限られない。

また、モデルＭ１のうち、分類部ＰＴ３、強調部ＰＴ４、及び出力部ＰＴ５のｍａｔｍｕｌ部分（図２中央部の一点鎖線内に対応）は、Ａｔｔｅｎｔｉｏｎ機構（アテンション機構）とも称され、このＡｔｔｅｎｔｉｏｎ機構は、上段の特徴の重要な部分を下段で選択（強調）しているともいえる。なお、図２のＡｔｔｅｎｔｉｏｎ機構は、Ａｔｔｅｎｔｉｏｎ機構としての機能を実現可能であれば、どのようなネットワーク構成であってもよい。例えば、モデルＭ１におけるＡｔｔｅｎｔｉｏｎ機構は、分類部ＰＴ３が出力する結果、すなわち分類部ＰＴ３による処理結果のうち、特徴の重要な部分（例えば画像の分類対象が含まれる領域）を強調部ＰＴ４が選択（強調）する機構であれば任意の構成が採用可能である。

学習装置１００は、図２に示すようなＥ２ＥモデルであるモデルＭ１を学習する。例えば、学習装置１００は、データＤＴ１が入力された場合に、分類ラベルＣＬ１が出力されるようにモデルＭ１の重み等のパラメータを学習する。また、データＤＴ２が入力された場合に、分類ラベルＣＬ２が出力されるようにモデルＭ１の重み等のパラメータを学習する。これにより、学習装置１００は、第１出力と第２出力との２つの種別の出力を行うモデルＭ１を生成する。モデルＭ１の学習処理には、任意の手法が採用可能である。

例えば、学習装置１００は、バックプロパゲーション（誤差逆伝播法）等の手法により学習処理を行う。例えば、学習装置１００は、学習処理により、ノード間で値が伝達する際に考慮される重み（すなわち、接続係数）の値を調整する。このように、学習装置１００は、モデルＭ１における出力（第１出力及び第２出力）と、入力に対応する正解（分類ラベル）との誤差が少なくなるようにパラメータ（接続係数）を補正するバックプロパゲーション等の処理によりモデルＭ１を学習する。例えば、学習装置１００は、所定の損失（ロス）関数を最小化するようにバックプロパゲーション等の処理を行うことによりモデルＭ１を生成する。これにより、学習装置１００は、モデルＭ１のパラメータを学習する学習処理を行うことができる。

そして、学習装置１００は、学習したモデルＭ１をユーザＵ１が利用する端末装置１０に提供する（ステップＳ１３）。モデルＭ１を受信した端末装置１０は、モデルＭ１を利用して画像の分類処理（推論）を実行する。この点について以下説明する。

まず、端末装置１０がユーザＵ１を撮像する。端末装置１０は、画像センサによりユーザＵ１を撮像し、撮像したユーザＵ１の画像を入力として受け付ける（ステップＳ１４）。

そして、端末装置１０は、入力として受け付けたユーザＵ１の画像と、モデルＭ１とを利用して推論処理を行う（ステップＳ１５）。端末装置１０は、ユーザＵ１の画像をモデルＭ１に入力し、モデルＭ１に分類結果を出力させることにより、入力された画像が第１分類、第２分類及び第３分類のうちいずれかに分類する処理（推論処理）を行う。図１では、モデルＭ１に入力された画像はマスクを着用しているユーザＵ１が撮像された画像であるため、モデルＭ１は、第１分類を示す情報を出力する。

端末装置１０は、推論結果を表示してもよい。例えば、端末装置１０は、画像に含まれる人（ユーザＵ１）がマスクを着用していることを示す情報を画面に表示する。なお、端末装置１０は、分類ラベルを表示してもよい。また、端末装置１０は、分類結果がマスクを着用していないことを示す第２分類である場合、ユーザＵ１にマスク非着用であることを示すアラートを通知し、ユーザＵ１にマスクを着用することを促してもよい。

また、端末装置１０は、画像、その画像に対応する分類結果を学習用データとして学習装置１００に送信してもよい。この場合、学習装置１００は、端末装置１０から受信した学習用データを用いて、モデルＭ１のパラメータを更新してもよい。

上述したように、学習装置１００は、入力された画像がマスク非着用の人が含まれる画像、マスク着用の人が含まれる画像、または人が含まれない画像の３つの分類のいずれであるか示す情報を出力するモデルＭ１を学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。また、端末装置１０は、画像に人が含まれる場合に、マスクを着用しているか否かを適切に分類するモデルを用いて推論処理を行うことができるため、適切なモデルを利用した処理を行うことができる。

〔１－１．学習処理(class weight等)〕
上述した例で説明した第１分類、第２分類、及び第３分類の場合、各分類間で分類の難易度に差がある。この点について図３を用いて説明する。図３は、分類の一例を示す図である。図３に示すように、人が含まれない画像の第３分類（図３中の風景画像に対応）と、人が含まれる第１分類及び第２分類との間は、相対的に分類が簡単（容易）。一方で、互いに人が含まれており、その人の状態のみが異なる第１分類（図３中のマスクなし画像に対応）と第２分類（図３中のマスク画像に対応）との間は、相対的に分類が難しい（非容易）といえる。このように、各分類（クラス）間での分類の難しさが異なる。

そのため、学習装置１００は、学習時の評価値の期待値を計算する際にclass weight（クラス重み付け）を用いて重み付けを行う。例えば、学習装置１００は、第１分類及び第２分類の画像については、第３分類よりも重みを重くすることにより、学習時にマスクなし、マスクの画像には重みをつけて学習処理を行う。これにより、学習装置１００は、マスクの有無について精度よく分類を行うことができるモデルを学習することができる。

〔１－２．分類対象等〕
なお、上記の図１の例では、分類対象である人がマスクを着用しているか否か分類対象の状態として分類するモデルＭ１を学習する場合を示したが、分類対象の状態はマスク着用の有無に限らず、様々な状態であってもよい。例えば、学習装置１００は、マスクに限らず、人がヘルメット、サングラス、ネックレス等を装着しているかを分類するモデルを学習してもよい。

また、学習装置１００は、人の顔等の頭部以外の部分の状態を分類するモデルを学習してもよい。例えば、学習装置１００は、人の手の状態を分類するモデルを学習してもよい。この場合、例えば、学習装置１００は、人が手に手袋等の物品を装着しているか否か分類対象の状態として分類するモデルを学習してもよい。また、例えば、学習装置１００は、人が手にコップ等の物品を把持しているか否か分類対象の状態として分類するモデルを学習してもよい。なお、人が手に把持する物品は、コップに限らず、グラス、バッグや傘など様々な物品であってもよい。

例えば、分類対象が傘であるモデルを用いる場合、例えば、端末装置１０は、ユーザが傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、傘を携帯することを促すメッセージを出力してもよい。

また、例えば、学習装置１００は、人の足の状態を分類するモデルを学習してもよい。この場合、例えば、学習装置１００は、人が足に靴等の物品を履いているか否か分類対象の状態として分類するモデルを学習してもよい。

また、分類対象は人に限らず、車等の移動体やコップ等の容器等、様々な対象であってもよい。例えば、分類対象が車である場合、学習装置１００は、車のナンバーが所定のナンバーであるかを分類対象の状態として分類するモデルを学習してもよい。また、例えば、分類対象がグラスである場合、学習装置１００は、グラスに内容物（液体）が入っているか否か分類対象の状態として分類するモデルを学習してもよい。例えば、グラスの内容物有無を分類するモデルを用いる場合、端末装置１０は、ユーザのグラスに内容物が無いと分類された場合、そのユーザのグラスに内容物を追加することを促す出力を行ってもよい。

なお、上記は一例に過ぎず、学習装置１００は、画像に分類対象が含まれるか否かと、その分類対象の状態が所定の状態であるか否かを分類するモデルであれば、どのような分類対象や分類対象の状態を分類するモデルを学習してもよい。

〔２．学習装置の構成〕
次に、図４を用いて、実施形態に係る学習装置１００の構成について説明する。図４は、実施形態に係る学習装置１００の構成例を示す図である。図４に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、学習装置１００は、学習装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、所定の通信網（ネットワーク）と有線または無線で接続され、端末装置１０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図４に示すように、学習用データ記憶部１２１と、モデル情報記憶部１２２とを有する。

（学習用データ記憶部１２１）
実施形態に係る学習用データ記憶部１２１は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部１２１は、学習に用いる学習データ（データセット）を記憶する。図５は、本開示の実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部１２１は、学習に用いる学習データや精度評価（測定）に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図５に、実施形態に係る学習用データ記憶部１２１の一例を示す。図５の例では、学習用データ記憶部１２１は、「データセットＩＤ」、「データＩＤ」、「データ」、「分類ラベル」といった項目が含まれる。

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、各学習用データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータを示す。「データ」は、モデルの入力として用いられるデータ（画像）を示す。

「分類ラベル」は、対応するデータ（画像）に対応する分類結果（正解）を示す。「分類ラベル」は、対応するデータ（画像）がモデルに入力された場合に、モデルが出力することが期待される分類結果を示す。

図５の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータが含まれることを示す。

データＩＤ「ＤＩＤ１」により識別されるデータＤＴ１は、分類ラベルが「ＣＬ１」であることを示す。図５の例では「ＣＬ１」～「ＣＬ８」のように抽象的に図示するが、「分類ラベル」には、認識対象に関連する分類結果を示す分類ラベル（値）であるものとする。例えば、「ＣＬ１」～「ＣＬ８」は、データ（画像）がマスクを着用していない人を含む画像に分類されることを示す第１分類（の値）、データ（画像）がマスクを着用している人を含む画像に分類されることを示す第２分類（の値）、または、データ（画像）が風景画像に分類されることを示す第３分類（の値）のいずれかとなる。

なお、学習用データ記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ記憶部１２１は、画像や音声等の教師データの種別を示す情報を各データに対応付けて記憶する。例えば、学習用データ記憶部１２１は、データの種別を示す情報を各データに対応付けて記憶する。図５の例では、データは、種別が「画像」であることを示す情報を各データに対応付けて記憶する。

例えば、学習用データ記憶部１２１は、各データが学習データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ記憶部１２１は、学習データと評価用データとを区別可能に記憶する。学習用データ記憶部１２１は、各データが学習データや評価用データであるかを識別する情報を記憶してもよい。学習装置１００は、学習データとして用いられる各データと分類ラベル（正解データ）とに基づいて、モデルを学習する。学習装置１００は、評価用データとして用いられる各データと分類ラベルとに基づいて、モデルの精度を測定する。学習装置１００は、評価用データを入力した場合にモデルが出力する出力結果（分類結果）と、分類ラベルとを比較した結果を収集することにより、モデルの精度を測定する。

（モデル情報記憶部１２２）
実施形態に係るモデル情報記憶部１２２は、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２２は、学習処理により学習（生成）された学習済みモデル（モデル）の情報（モデルデータ）を記憶する。図６は、本開示の第１の実施形態に係るモデル情報記憶部の一例を示す図である。図６に、第１の実施形態に係るモデル情報記憶部１２２の一例を示す。図６に示した例では、モデル情報記憶部１２２は、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。

「モデルＩＤ」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図６等では「モデルデータ」に「ＭＤＴ１」といった概念的な情報が格納される例を示したが、実際には、モデルの構成（ネットワーク構成）の情報やパラメータに関する情報等、そのモデルを構成する種々の情報が含まれる。例えば、「モデルデータ」には、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。

図６に示す例では、モデルＩＤ「Ｍ１」により識別されるモデル（モデルＭ１）は、用途が「画像分類」であることを示す。すなわち、モデルＭ１は、入力された画像データの分類を示す情報を出力するモデルであることを示す。また、モデルＭ１のモデルデータは、モデルデータＭＤＴ１であることを示す。

なお、モデル情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

（制御部１３０）
図４の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、学習装置１００内部の記憶装置に記憶されている各種プログラム（学習プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図４に示すように、制御部１３０は、取得部１３１と、学習部１３２と、提供部１３３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１）
取得部１３１は、記憶部１２０から各種の情報を取得する。取得部１３１は、学習用データ記憶部１２１から学習に用いるデータを取得する。取得部１３１は、モデル情報記憶部１２２からモデルの情報を取得する。

取得部１３１は、通信部１１０を介して、端末装置１０から情報を受信する。取得部１３１は、端末装置１０から学習用データを取得する。取得部１３１は、端末装置１０において、画像分類処理の対象となった画像と、その画像に対応する分類結果、またユーザが修正した修正結果とのセット（組合せ）を学習用データとして端末装置１０から収集する。

（学習部１３２）
学習部１３２は、モデルを学習する。学習部１３２は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を学習する。学習部１３２は、学習用データ記憶部１２１に記憶された情報に基づいて、各種情報を学習する。学習部１３２は、学習により生成したモデルをモデル情報記憶部１２２に格納する。

学習部１３２は、入力された画像を対象として分類対象を分類する分類部ＰＴ３と、画像のうち分類対象が含まれる領域に応じて、分類部ＰＴ３が出力する結果のうち一部を強調する強調部ＰＴ４と、強調部ＰＴ４による強調結果に応じて、画像の分類結果を出力する出力部ＰＴ５とを有するモデルＭ１を学習する。学習部１３２は、入力された画像の特徴を抽出する抽出部ＰＴ２を有するモデルＭ１を学習する。

学習部１３２は、分類対象の状態に関する分類である第１分類及び第２分類と、画像に分類対象が含まれない第３分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。学習部１３２は、分類対象が第１状態であることを示す第１分類、分類対象が第２状態であることを示す第２分類、または第３分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

学習部１３２は、分類対象である人が所定の物品を装着していないことを示す第１分類、人が所定の物品を装着していることを示す第２分類、または第３分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。学習部１３２は、学習用画像と、第１分類、第２分類、または第３分類のうちいずれかの分類との組合せを含む学習データを用いてモデルを学習する。学習部１３２は、互いに分類が非容易な第１分類及び第２分類と、第１分類及び第２分類との分類が容易である第３分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

学習部１３２は、モデル（ネットワーク）のパラメータを学習する。学習部１３２は、接続されたノード間の接続係数（重み）等のパラメータを学習する。学習部１３２は、種々の機械学習に関する技術を用いて、モデルを学習する。学習部１３２は、モデルに入力するデータと、そのデータが入力された場合の出力を示す分類ラベルとを用いて行う学習処理、すなわち教師有り学習の手法によりモデルのパラメータを学習する。なお、上記は一例であり、学習部１３２は、モデルのパラメータを学習可能であれば、どのような学習処理により、モデルのパラメータを学習してもよい。

（提供部１３３）
提供部１３３は、通信部１１０を介して、端末装置１０へ情報を送信する。提供部１３３は、端末装置１０へモデルを提供する。例えば、提供部１３３は、端末装置１０へ画像分類に用いるモデルＭ１を送信する。

〔３．端末装置の構成〕
次に、図７を用いて、実施形態に係る端末装置１０の構成について説明する。図７は、実施形態に係る端末装置１０の構成例を示す図である。図７に示すように、端末装置１０は、通信部１１と、記憶部１２と、入力部１３と、表示部１４と、制御部１５と、センサ部１６とを有する。なお、端末装置１０は、各種情報を音声出力するための音声出力部（例えばスピーカ等）を有してもよい。

（通信部１１）
通信部１１は、例えば、通信回路等によって実現される。そして、通信部１１は、図示しない所定の通信網と有線または無線で接続され、学習装置１００との間で情報の送受信を行う。

（記憶部１２）
記憶部１２は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２は、例えば、端末装置１０にインストールされているアプリケーション（例えば画像分類アプリ等）に関する情報、例えばプログラム等を記憶する。また、記憶部１２は、学習装置１００から提供されたモデルを記憶する。例えば、記憶部１２は、モデルＭ１を記憶する。

（入力部１３）
入力部１３は、ユーザからの各種操作を受け付ける。入力部１３は、タッチパネル機能により表示面を介してユーザからの各種操作を受け付けてもよい。また、入力部１３は、端末装置１０に設けられたボタンや、端末装置１０に接続されたキーボードやマウスからの各種操作を受け付けてもよい。

また、入力部１３は、音声を検知する機能を有し、ユーザの発話による音声入力を受け付ける。入力部１３は、音声を検知するマイクにより検知されたユーザによる発話を入力として受け付ける。

例えば、入力部１３は、端末装置１０の表示部１４を介してユーザの指定操作等の操作を受け付ける。例えば、入力部１３は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部１３と受付部１５２とは一体であってもよい。なお、入力部１３によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。

（表示部１４）
表示部１４は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。

（制御部１５）
制御部１５は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、端末装置１０内部の記憶部１２などの記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。例えば、この各種プログラムは、インストールされているアプリケーション（例えばメッセージアプリ等）のプログラムが含まれる。また、制御部１５は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

図７に示すように、制御部１５は、受信部１５１と、受付部１５２と、推論部１５３と、処理部１５４と、送信部１５５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図７に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（受信部１５１）
受信部１５１は、通信部１１を介して、学習装置１００から情報を受信する。受信部１５１は、学習装置１００から提供されたモデルを受信する。受信部１５１は、モデルＭ１を受信する。

（受付部１５２）
受付部１５２は、各種情報を受け付ける。受付部１５２は、センサ部１６の画像センサにより検知された画像の入力を受け付ける。受付部１５２は、センサ部１６の画像センサにより検知された画像を分類処理の対象とする対象画像として受け付ける。

また、受付部１５２は、入力部１３を介してユーザによる入力を受け付ける。受付部１５２は、ユーザによる操作を受け付ける。受付部１５２は、表示部１４により表示された情報に対するユーザの操作を受け付ける。受付部１５２は、ユーザによる発話を入力として受け付ける。受付部１５２は、ユーザＵ１による「ＸＸＸＸ」という発話を入力として受け付ける。

（推論部１５３）
推論部１５３は、推論処理を行う。推論部１５３は、記憶部１２に記憶されたモデルを用いて、推論処理を行う。推論部１５３は、受信部１５１により受信されたモデルを用いて推論を行う。推論部１５３は、受信部により受信されたモデルにデータを入力することにより、当該データに対応する分類結果を生成する推論処理を行う。推論部１５３は、モデルに画像データを入力することにより、当該画像データに対応する推論処理を行う。推論部１５３は、モデルに画像データを入力することにより、当該画像データの分類結果を生成する推論処理を行う。

（処理部１５４）
処理部１５４は、推論部１５３の推論結果を用いて各種の処理を実行する。処理部１５４は、推論部１５３の推論結果を表示部１４に表示する。例えば、処理部１５４は、対象画像に含まれる人物がマスクを着用していない場合、マスクが着用されていないことを示す情報を表示する。処理部１５４は、対象画像に含まれる人物がマスクを着用していない場合、表示部１４の表示を点滅させることによりアラートを通知する。処理部１５４は、対象画像に含まれる人物がマスクを着用していない場合、音声出力部により音を出力させることによりアラートを通知する。

（送信部１５５）
送信部１５５は、通信部１１を介して、学習装置１００へ情報を送信する。送信部１５５は、モデルＭ１を要求する要求情報を学習装置１００に送信する。また、送信部１５５は、画像と分類結果とのセットを学習用データとして、学習装置１００に送信してもよい。例えば、送信部１５５は、画像と、モデルＭ１が出力したその画像の分類結果と、その分類結果が正解であるか否かを示す情報とを学習用データとして、学習装置１００に送信してもよい。送信部１５５は、推論において入力に用いた画像データと、その画像データに対応する出力結果をユーザが修正したデータとのセットを学習用データとして、学習装置１００に送信する。

なお、上述した制御部１５による各処理は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）などにより実現されてもよい。また、上述した表示処理が所定のアプリケーション（例えば画像分類アプリ等）により行われる場合や推論処理等の処理が専用アプリにより行われる場合、制御部１５は、例えば、所定のアプリや専用アプリを制御するアプリ制御部を有してもよい。

（センサ部１６）
センサ部１６は、所定の情報を検知する。センサ部１６は、画像センサを有し画像を撮像する。例えば、センサ部１６は、画像センサとして機能するインカメラを有し、画面を見ながら操作するユーザを撮像する。

なお、センサ部１６は、画像センサに限らず、様々な情報を検知するセンサを有してもよい。また、センサ部１６は、加速度センサやジャイロセンサ等を有し、ユーザの運動状態を検知する。また、センサ部１６は、ＧＰＳセンサ等の位置センサを有し、ユーザの位置情報を検知する。また、センサ部１６は、温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のユーザの置かれている環境情報を検知し、取得可能であってもよい。また、センサ部１６は、心拍センサ等の種々の機能を有し、ユーザの生体情報を検知し、取得可能であってもよい。例えば、センサ部１６を利用するユーザは、センサ部１６と通信可能なウェアラブルデバイスを身に付けることにより、センサ部１６によりユーザ自身のコンテキスト情報を取得可能としてもよい。例えば、センサ部１６を利用するユーザは、センサ部１６と通信可能なリストバンド型のウェアラブルデバイスを身に付けることにより、センサ部１６によりユーザ自身の心拍（脈拍）に関する情報をセンサ部１６が取得可能としてもよい。

〔４．処理フロー〕
次に、図８を用いて、実施形態に係る情報処理システム１による情報処理の手順について説明する。図８は、実施形態に係る学習装置による処理の一例を示すフローチャートである。

図８に示すように、学習装置１００は、学習用データを取得する（ステップＳ１０１）。すなわち、学習装置１００は、機械学習のモデルの学習に用いるデータと、当該データの分類結果を示す分類ラベル（正解情報）とを含む学習用データを取得する。

学習装置１００は、画像の分類結果を出力するモデルを学習する（ステップＳ１０２）。例えば、学習装置１００は、データの入力に応じて、データの分類を示す分類ラベルを出力するモデルを学習する。学習装置１００は、学習したモデルを端末装置へ提供する（ステップＳ１０３）。学習装置１００は、学習したモデルを端末装置１０へ提供する。

次に、図９を用いて端末装置１０におけるモデルを用いた推論等の処理の流れを示す。図９は、実施形態に係る端末装置による処理の一例を示すフローチャートである。

図９に示すように、端末装置１０は、モデルを受信していない場合（ステップＳ２０１：Ｎｏ）、モデルを受信するまで待機する。端末装置１０は、モデルを受信した後（ステップＳ２０１：Ｙｅｓ）、対象画像を受け付けていない場合（ステップＳ２０２：Ｎｏ）、対象画像を受け付けるまで待機する。

端末装置１０は、対象画像を受け付けた場合（ステップＳ２０２：Ｙｅｓ）、対象画像を分類する推論処理を実行する（ステップＳ２０３）。例えば、端末装置１０は、モデルに対象画像を入力することにより、対象画像を分類する推論処理を実行する。

そして、端末装置１０は、推論結果を表示する（ステップＳ２０４）。例えば、端末装置１０は、対象画像に含まれる人物がマスクを着用していない場合、マスクが着用されていないことを示す情報を表示する。なお、端末装置１０は、対象画像に含まれる人物がマスクを着用していない場合、音や点滅などによるアラートを通知してもよい。

〔５．効果〕
上述してきたように、実施形態に係る学習装置１００は、学習部１３２を有する。学習部１３２は、入力された画像を対象として分類対象を分類する分類部（実施形態ではモデルＭ１の分類部ＰＴ３）と、画像のうち分類対象が含まれる領域に応じて、分類部が出力する結果のうち一部を強調する強調部（実施形態ではモデルＭ１の強調部ＰＴ４）と、強調部による強調結果に応じて、画像の分類結果を出力する出力部（実施形態ではモデルＭ１の出力部ＰＴ５）とを有するモデル（実施形態ではモデルＭ１）を学習する。

これにより、実施形態に係る学習装置１００は、例えば人の顔などの分類対象が含まれる領域を強調し、分類を行うモデルを学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、分類対象の状態に関する分類である第１分類及び第２分類と、画像に分類対象が含まれない第３分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

これにより、実施形態に係る学習装置１００は、分類対象の状態に関する分類である第１分類及び第２分類と、画像に分類対象が含まれない第３分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、分類対象が第１状態であることを示す第１分類、分類対象が第２状態であることを示す第２分類、または第３分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

これにより、実施形態に係る学習装置１００は、分類対象が第１状態であることを示す第１分類、分類対象が第２状態であることを示す第２分類、または第３分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、分類対象である人が所定の物品を装着していないことを示す第１分類、人が所定の物品を装着していることを示す第２分類、または第３分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

これにより、実施形態に係る学習装置１００は、分類対象である人が所定の物品を装着していないことを示す第１分類、人が所定の物品を装着していることを示す第２分類、または第３分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、学習用画像と、第１分類、第２分類、または第３分類のうちいずれかの分類との組合せを含む学習データを用いてモデルを学習する。

これにより、実施形態に係る学習装置１００は、学習用画像と、正解となる分類（ラベル）との組合せを含む学習データを用いてモデルを学習することにより、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、互いに分類が非容易な第１分類及び第２分類と、第１分類及び第２分類との分類が容易である第３分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。

これにより、実施形態に係る学習装置１００は、互いに分類が非容易な第１分類及び第２分類と、第１分類及び第２分類との分類が容易である第３分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置１００は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

また、実施形態に係る学習装置１００において、学習部１３２は、入力された画像の特徴を抽出する抽出部（実施形態ではモデルＭ１の抽出部ＰＴ２）を有するモデルを学習し、分類部は、抽出部の抽出結果を用いて分類対象を分類し、強調部は、抽出部の抽出結果を用いて一部を強調する。

これにより、実施形態に係る学習装置１００は、入力された画像の特徴を抽出する抽出部を有するモデルを学習することにより、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。

〔６．ハードウェア構成〕
また、上述した実施形態に係る端末装置１０や学習装置１００は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。以下、学習装置１００を例に挙げて説明する。図１０は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力Ｉ／Ｆ（Interface）１０６０、入力Ｉ／Ｆ１０７０、ネットワークＩ／Ｆ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置１０３０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等により実現される。

一次記憶装置１０４０は、ＲＡＭ（Random Access Memory）等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等により実現される。二次記憶装置１０５０は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置１０５０は、ＵＳＢメモリやＳＤ（Secure Digital）メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置１０５０は、クラウドストレージ（オンラインストレージ）やＮＡＳ（Network Attached Storage）、ファイルサーバ等であってもよい。

出力Ｉ／Ｆ１０６０は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力Ｉ／Ｆ１０７０は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェイスであり、例えば、ＵＳＢ等により実現される。

また、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０はそれぞれ出力装置１０１０及び入力装置１０２０と無線で接続してもよい。すなわち、出力装置１０１０及び入力装置１０２０は、ワイヤレス機器であってもよい。

また、出力装置１０１０及び入力装置１０２０は、タッチパネルのように一体化していてもよい。この場合、出力Ｉ／Ｆ１０６０及び入力Ｉ／Ｆ１０７０も、入出力Ｉ／Ｆとして一体化していてもよい。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。

ネットワークＩ／Ｆ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力Ｉ／Ｆ１０６０や入力Ｉ／Ｆ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が学習装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器から取得したプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ１０００の演算装置１０３０は、ネットワークＩ／Ｆ１０８０を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。

〔７．その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

例えば、上述した学習装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。例えば、学習装置１００におけるモデルの学習部分と学習済モデル提供部分とは別々の装置であってもよい。この場合、情報処理システム１は、学習装置１００に替えて、学習用データ記憶部１２１、取得部１３１、及び学習部１３２を少なくとも有する第１情報処置装置と、モデル情報記憶部１２２及び提供部１３３を少なくとも有する第２情報処置装置とを有する構成であってもよい。また、学習装置１００と端末装置１０とは一体であってもよい。この場合、例えばユーザが利用する端末装置１０が学習装置１００としての機能を有してもよい。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１情報処理システム
１００学習装置
１２０記憶部
１２１学習用データ記憶部
１２２モデル情報記憶部
１３０制御部
１３１取得部
１３２学習部
１３３提供部
１０端末装置
１１通信部
１２記憶部
１３入力部
１４表示部
１５制御部
１５１受信部
１５２受付部
１５３推論部
１５４処理部
１５５送信部

Claims

入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習部と、
前記学習部により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供部と、
を備え、
前記学習部は、
前記人が傘を手に持っていないことを示す第１分類、前記人が前記傘を手に持っていることを示す第２分類、または、前記画像に前記人が含まれない第３分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
前記提供部は、
前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習装置。
前記学習部は、
学習用画像と、前記第１分類、前記第２分類、または前記第３分類のうちいずれかの分類との組合せを含む学習データを用いて前記モデルを学習する
ことを特徴とする請求項１に記載の学習装置。
前記学習部は、
互いに分類が非容易な前記第１分類及び前記第２分類と、前記第１分類及び前記第２分類との分類が容易である前記第３分類とのうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習する
ことを特徴とする請求項１または請求項２に記載の学習装置。
前記学習部は、
入力された前記画像の特徴を抽出する抽出部を有する前記モデルを学習し、
前記分類部は、前記抽出部の抽出結果を用いて前記人を分類し、
前記強調部は、前記抽出部の抽出結果を用いて前記一部を強調する
ことを特徴とする請求項１～３のいずれか１項に記載の学習装置。
コンピュータが実行する学習方法であって、
入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習工程と、
前記学習工程により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供工程と、
を含み、
前記学習工程は、
前記人が傘を手に持っていないことを示す第１分類、前記人が前記傘を手に持っていることを示す第２分類、または、前記画像に前記人が含まれない第３分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
前記提供工程は、
前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習方法。
入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習手順と、
前記学習手順により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供手順と、
をコンピュータに実行させ、
前記学習手順は、
前記人が傘を手に持っていないことを示す第１分類、前記人が前記傘を手に持っていることを示す第２分類、または、前記画像に前記人が含まれない第３分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
前記提供手順は、
前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習プログラム。