JP7348150B2 - 学習装置、学習方法、及び学習プログラム - Google Patents

学習装置、学習方法、及び学習プログラム Download PDF

Info

Publication number
JP7348150B2
JP7348150B2 JP2020156747A JP2020156747A JP7348150B2 JP 7348150 B2 JP7348150 B2 JP 7348150B2 JP 2020156747 A JP2020156747 A JP 2020156747A JP 2020156747 A JP2020156747 A JP 2020156747A JP 7348150 B2 JP7348150 B2 JP 7348150B2
Authority
JP
Japan
Prior art keywords
learning
classification
unit
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020156747A
Other languages
English (en)
Other versions
JP2022050251A (ja
Inventor
凱 岡田
晃矢 佐藤
輝 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020156747A priority Critical patent/JP7348150B2/ja
Publication of JP2022050251A publication Critical patent/JP2022050251A/ja
Application granted granted Critical
Publication of JP7348150B2 publication Critical patent/JP7348150B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習装置、学習方法、及び学習プログラムに関する。
画像に含まれる情報を推定する様々な技術が提供されている。例えば、画像を用いて、作業者の格好が作業環境等に応じた適正な状態にあるかを監視する技術が提供されている(例えば特許文献1参照)。
特開2015-95209号公報
しかしながら、上記の従来技術では、対象者の身体の特定部位の状態に注目した推定を行うことができるが、対象者の身体の所定部位を検出する処理や検出した所定部位の状態を推定する処理等の複数の処理が個別に必要となるため、処理が煩雑になる。そのため、よい簡易な構成により、画像を対象とした処理を可能にすることが望まれており、分類対象に応じて適切な分類結果を出力するモデルを学習することが望まれている。
本願は、上記に鑑みてなされたものであって、分類対象に応じて適切な分類結果を出力するモデルを学習する学習装置、学習方法、及び学習プログラムを提供することを目的とする。
本願に係る学習装置は、入力された画像を対象として分類対象を分類する分類部と、前記画像のうち前記分類対象が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルを学習する学習部、を備えたことを特徴とする。
実施形態の一態様によれば、分類対象に応じて適切な分類結果を出力するモデルを学習することができるという効果を奏する。
図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。 図2は、モデルの構成の一例を示す図である。 図3は、分類の一例を示す図である。 図4は、実施形態に係る学習装置の構成例を示す図である。 図5は、実施形態に係る学習用データ記憶部の一例を示す図である。 図6は、実施形態に係るモデル情報記憶部の一例を示す図である。 図7は、実施形態に係る端末装置の構成例を示す図である。 図8は、実施形態に係る学習装置による処理の一例を示すフローチャートである。 図9は、実施形態に係る端末装置による処理の一例を示すフローチャートである。 図10は、ハードウェア構成の一例を示す図である。
以下に、本願に係る学習装置、学習方法、及び学習プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法、及び学習プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.情報処理〕
ここから、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。まず、情報処理システム1の構成について説明する。
図1に示すように、情報処理システム1は、端末装置10と、学習装置100とが含まれる。端末装置10と、学習装置100とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、図1に示した情報処理システム1には、複数台の端末装置10や、複数台の学習装置100が含まれてもよい。
学習装置100は、入力された画像を対象として分類対象を分類し、画像のうち分類対象が含まれる領域に応じて一部を強調し、強調結果に応じて、画像の分類結果を出力するモデルを学習する情報処理装置である。学習装置100は、入力された画像を対象として分類対象を分類する分類部PT3と、画像のうち分類対象が含まれる領域に応じて、分類部PT3が出力する結果のうち一部を強調する強調部PT4と、強調部PT4による強調結果に応じて、画像の分類結果を出力する出力部PT5とを有するモデルM1を学習する。また、学習装置100は、学習したモデルM1を端末装置10に提供する。
端末装置10は、ユーザによって利用されるデバイス(コンピュータ)である。端末装置10は、ユーザによる操作を受け付ける。端末装置10は、学習装置100から提供されたモデルを用いて推論を行う。端末装置10は、推論結果を音声によりユーザに通知する。また、端末装置10は、画像を撮像する画像センサを有し、端末装置10を利用するユーザを撮像可能である。例えば、端末装置10は、画像センサとして機能するインカメラやアウトカメラを有する。端末装置10は、インカメラを有し、画面を見ながら操作するユーザを撮像する。
また、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1の例では、端末装置10がタッチパネル機能を有するスマートフォンである場合を示す。
以下、図1を用いて、情報処理の一例を説明する。図1では、ユーザがユーザID「U1」により識別されるユーザ(以下、「ユーザU1」とする場合がある)である場合を示す。また、図1では、学習装置100が画像データ(以下単に「画像」ともいう)の入力に対して、その画像に分類対象である人が含まれるか否か、人が含まれる場合その人がマスクを着用しているか否かを分類する分類モデルであるモデルM1を学習する場合を一例として説明する。すなわち、図1では、入力された画像がマスク非着用の人が含まれる画像、マスク着用の人が含まれる画像、または人が含まれない画像の3つの分類のいずれであるか示す情報を出力するモデルM1を学習装置100が学習する場合を示す。
なお、以下では、人が含まれるがその人がマスクを着用していない画像が属する分類を第1分類と記載し、マスクを着用している人が含まれる画像が属する分類を第2分類と記載し、人が含まれない画像、すなわち風景画像が属する分類を第3分類と記載する場合がある。以下、情報処理システム1におけるモデルM1の学習処理及び、モデルM1を用いた推論処理について説明する。
まず、学習装置100は、機械学習に用いる学習用データ群DS1を取得する(ステップS11)。学習用データ群DS1には、モデルの入力として用いられるデータと、そのデータに対応する分類ラベル(正解情報)とのセット(組合せ)が複数含まれる。例えば、画像であるデータDT1は、分類ラベルCL1が対応付けられている。この場合、分類ラベルCL1は、データDT1が第1分類、第2分類、及び第3分類のいずれであるかを示す値(分類ラベル)であるものとする。
そして、学習装置100は、学習用データ群DS1を用いて、データの分類結果を示す分類ラベルの出力を行うモデルM1を学習する(ステップS12)。図1では、画像の入力部PT1の入力層への入力に応じて、出力部PT5の出力層から分類ラベルを出力するモデルM1を概念的に示す。まず、モデルM1の構成について図2を参照しつつ、具体的に説明する。図2は、モデルの構成の一例を示す図である。
図1及び図2に示すように、モデルM1は、画像が入力される入力部PT1と、入力部PT1に入力された画像の特徴を抽出する抽出部PT2と、分類対象を分類する分類部PT3と、分類対象が含まれる箇所を強調する強調部PT4と、分類結果を出力する出力部PT5とを有する。このように、モデルM1は、画像分類のタスクが与えられたときにそのタスクの入力信号から出力結果までを単一のモデルで計算するものであり、いわゆるEnd-to-Endモデル(「E2Eモデル」ともいう)である。E2Eモデルは、例えば、小分けされたタスクを個別に解く必要がないため、学習時のフローを簡単化することができる。また、E2Eモデルは、例えばユーザが利用するデバイス(端末装置10等)で完結する画像認識等の処理に好適である。以下、モデルM1の各構成について説明する。なお、各構成の各部分は既存技術の組合せであり、各部分についての詳細な説明は適宜省略する。
入力部PT1は、画像が入力される入力層の部分(図2中のIN)を含む。抽出部PT2は、画像の特徴を抽出するように構成され、図2の例では、MobileNetV2が用いられる場合を示す。例えば、抽出部PT2は、認識対象のラベルを出力するMobileNetV2のうちラベルを出力する部分を除いた部分、すなわち画像の特徴を抽出する部分が用いられる。MobileNetV2のうちラベルを出力する部分を除くことにより、MobileNetV2を画像の特徴量の抽出器として用いる。このように、MobileNetV2のような軽量な構成とすることで、処理時間の増大を抑制することができる。なお、抽出部PT2は、画像の特徴を抽出可能であれば、図2に示す例に限られない。例えば、抽出部PT2は、画像を対象とするオートエンコーダのエンコード部分であってもよい。
分類部PT3は、バッチ正規化(Batch Normalization)を行う部分(図2中のBN)と、畳み込み(convolution)を行う部分(図2中の3つのconv)と、グローバル平均プーリング(Global Average Pooling)を行う部分(図2中の上段のGAP)とを含む。図2では、分類部PT3は、抽出部PT2の処理結果を対象としてバッチ正規化を行い、複数回畳み込みを行った後、その畳み込みの結果を対象に平均値を得るグローバル平均プーリングの処理を行う。なお、図2に示す分類部PT3の構成は一例に過ぎず、図2に示す例に限られない。
強調部PT4は、行列積(matrix multiplication)を求める処理を行う部分(図2中の下段のmatmul)と、グローバル平均プーリングを行う部分(図2中の上段のGAP)とを含む。強調部PT4は、分類部PT3のバッチ正規化の処理結果と、分類部PT3の畳み込みの処理結果とを対象として行列積を求めた後、その行列積を求めた結果を対象にGAPの処理を行う。なお、図2に示す強調部PT4の構成は一例に過ぎず、図2に示す例に限られない。
出力部PT5は、行列積を求める処理を行う部分(図2中の上段のmatmul)と、全結合層(Fully Connected Layer)の部分(図2中の2つのFC)と、分類ラベルを出力する出力層の部分(図2中のOUT)を含む。これにより、出力部PT5は、分類部PT3の処理結果及び強調部PT4の処理結果を用いて、出力する分類結果を生成する。出力層には、ソフトマックス関数等の活性化関数が用いられる。図2の例では、出力部PT5は、分類部PT3の処理結果と、強調部PT4の処理結果とを対象として行列積を求めた後、複数の全結合層を経て、出力層から分類結果を出力する。なお、図2に示す出力部PT5の構成は一例に過ぎず、図2に示す例に限られない。
また、モデルM1のうち、分類部PT3、強調部PT4、及び出力部PT5のmatmul部分(図2中央部の一点鎖線内に対応)は、Attention機構(アテンション機構)とも称され、このAttention機構は、上段の特徴の重要な部分を下段で選択(強調)しているともいえる。なお、図2のAttention機構は、Attention機構としての機能を実現可能であれば、どのようなネットワーク構成であってもよい。例えば、モデルM1におけるAttention機構は、分類部PT3が出力する結果、すなわち分類部PT3による処理結果のうち、特徴の重要な部分(例えば画像の分類対象が含まれる領域)を強調部PT4が選択(強調)する機構であれば任意の構成が採用可能である。
学習装置100は、図2に示すようなE2EモデルであるモデルM1を学習する。例えば、学習装置100は、データDT1が入力された場合に、分類ラベルCL1が出力されるようにモデルM1の重み等のパラメータを学習する。また、データDT2が入力された場合に、分類ラベルCL2が出力されるようにモデルM1の重み等のパラメータを学習する。これにより、学習装置100は、第1出力と第2出力との2つの種別の出力を行うモデルM1を生成する。モデルM1の学習処理には、任意の手法が採用可能である。
例えば、学習装置100は、バックプロパゲーション(誤差逆伝播法)等の手法により学習処理を行う。例えば、学習装置100は、学習処理により、ノード間で値が伝達する際に考慮される重み(すなわち、接続係数)の値を調整する。このように、学習装置100は、モデルM1における出力(第1出力及び第2出力)と、入力に対応する正解(分類ラベル)との誤差が少なくなるようにパラメータ(接続係数)を補正するバックプロパゲーション等の処理によりモデルM1を学習する。例えば、学習装置100は、所定の損失(ロス)関数を最小化するようにバックプロパゲーション等の処理を行うことによりモデルM1を生成する。これにより、学習装置100は、モデルM1のパラメータを学習する学習処理を行うことができる。
そして、学習装置100は、学習したモデルM1をユーザU1が利用する端末装置10に提供する(ステップS13)。モデルM1を受信した端末装置10は、モデルM1を利用して画像の分類処理(推論)を実行する。この点について以下説明する。
まず、端末装置10がユーザU1を撮像する。端末装置10は、画像センサによりユーザU1を撮像し、撮像したユーザU1の画像を入力として受け付ける(ステップS14)。
そして、端末装置10は、入力として受け付けたユーザU1の画像と、モデルM1とを利用して推論処理を行う(ステップS15)。端末装置10は、ユーザU1の画像をモデルM1に入力し、モデルM1に分類結果を出力させることにより、入力された画像が第1分類、第2分類及び第3分類のうちいずれかに分類する処理(推論処理)を行う。図1では、モデルM1に入力された画像はマスクを着用しているユーザU1が撮像された画像であるため、モデルM1は、第1分類を示す情報を出力する。
端末装置10は、推論結果を表示してもよい。例えば、端末装置10は、画像に含まれる人(ユーザU1)がマスクを着用していることを示す情報を画面に表示する。なお、端末装置10は、分類ラベルを表示してもよい。また、端末装置10は、分類結果がマスクを着用していないことを示す第2分類である場合、ユーザU1にマスク非着用であることを示すアラートを通知し、ユーザU1にマスクを着用することを促してもよい。
また、端末装置10は、画像、その画像に対応する分類結果を学習用データとして学習装置100に送信してもよい。この場合、学習装置100は、端末装置10から受信した学習用データを用いて、モデルM1のパラメータを更新してもよい。
上述したように、学習装置100は、入力された画像がマスク非着用の人が含まれる画像、マスク着用の人が含まれる画像、または人が含まれない画像の3つの分類のいずれであるか示す情報を出力するモデルM1を学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。また、端末装置10は、画像に人が含まれる場合に、マスクを着用しているか否かを適切に分類するモデルを用いて推論処理を行うことができるため、適切なモデルを利用した処理を行うことができる。
〔1-1.学習処理(class weight等)〕
上述した例で説明した第1分類、第2分類、及び第3分類の場合、各分類間で分類の難易度に差がある。この点について図3を用いて説明する。図3は、分類の一例を示す図である。図3に示すように、人が含まれない画像の第3分類(図3中の風景画像に対応)と、人が含まれる第1分類及び第2分類との間は、相対的に分類が簡単(容易)。一方で、互いに人が含まれており、その人の状態のみが異なる第1分類(図3中のマスクなし画像に対応)と第2分類(図3中のマスク画像に対応)との間は、相対的に分類が難しい(非容易)といえる。このように、各分類(クラス)間での分類の難しさが異なる。
そのため、学習装置100は、学習時の評価値の期待値を計算する際にclass weight(クラス重み付け)を用いて重み付けを行う。例えば、学習装置100は、第1分類及び第2分類の画像については、第3分類よりも重みを重くすることにより、学習時にマスクなし、マスクの画像には重みをつけて学習処理を行う。これにより、学習装置100は、マスクの有無について精度よく分類を行うことができるモデルを学習することができる。
〔1-2.分類対象等〕
なお、上記の図1の例では、分類対象である人がマスクを着用しているか否か分類対象の状態として分類するモデルM1を学習する場合を示したが、分類対象の状態はマスク着用の有無に限らず、様々な状態であってもよい。例えば、学習装置100は、マスクに限らず、人がヘルメット、サングラス、ネックレス等を装着しているかを分類するモデルを学習してもよい。
また、学習装置100は、人の顔等の頭部以外の部分の状態を分類するモデルを学習してもよい。例えば、学習装置100は、人の手の状態を分類するモデルを学習してもよい。この場合、例えば、学習装置100は、人が手に手袋等の物品を装着しているか否か分類対象の状態として分類するモデルを学習してもよい。また、例えば、学習装置100は、人が手にコップ等の物品を把持しているか否か分類対象の状態として分類するモデルを学習してもよい。なお、人が手に把持する物品は、コップに限らず、グラス、バッグや傘など様々な物品であってもよい。
例えば、分類対象が傘であるモデルを用いる場合、例えば、端末装置10は、ユーザが傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、傘を携帯することを促すメッセージを出力してもよい。
また、例えば、学習装置100は、人の足の状態を分類するモデルを学習してもよい。この場合、例えば、学習装置100は、人が足に靴等の物品を履いているか否か分類対象の状態として分類するモデルを学習してもよい。
また、分類対象は人に限らず、車等の移動体やコップ等の容器等、様々な対象であってもよい。例えば、分類対象が車である場合、学習装置100は、車のナンバーが所定のナンバーであるかを分類対象の状態として分類するモデルを学習してもよい。また、例えば、分類対象がグラスである場合、学習装置100は、グラスに内容物(液体)が入っているか否か分類対象の状態として分類するモデルを学習してもよい。例えば、グラスの内容物有無を分類するモデルを用いる場合、端末装置10は、ユーザのグラスに内容物が無いと分類された場合、そのユーザのグラスに内容物を追加することを促す出力を行ってもよい。
なお、上記は一例に過ぎず、学習装置100は、画像に分類対象が含まれるか否かと、その分類対象の状態が所定の状態であるか否かを分類するモデルであれば、どのような分類対象や分類対象の状態を分類するモデルを学習してもよい。
〔2.学習装置の構成〕
次に、図4を用いて、実施形態に係る学習装置100の構成について説明する。図4は、実施形態に係る学習装置100の構成例を示す図である。図4に示すように、学習装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、学習装置100は、学習装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図4に示すように、学習用データ記憶部121と、モデル情報記憶部122とを有する。
(学習用データ記憶部121)
実施形態に係る学習用データ記憶部121は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部121は、学習に用いる学習データ(データセット)を記憶する。図5は、本開示の実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部121は、学習に用いる学習データや精度評価(測定)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図5に、実施形態に係る学習用データ記憶部121の一例を示す。図5の例では、学習用データ記憶部121は、「データセットID」、「データID」、「データ」、「分類ラベル」といった項目が含まれる。
「データセットID」は、データセットを識別するための識別情報を示す。「データID」は、各学習用データを識別するための識別情報を示す。また、「データ」は、データIDにより識別されるデータを示す。「データ」は、モデルの入力として用いられるデータ(画像)を示す。
「分類ラベル」は、対応するデータ(画像)に対応する分類結果(正解)を示す。「分類ラベル」は、対応するデータ(画像)がモデルに入力された場合に、モデルが出力することが期待される分類結果を示す。
図5の例では、データセットID「DS1」により識別されるデータセット(データセットDS1)には、データID「DID1」、「DID2」、「DID3」等により識別される複数のデータが含まれることを示す。
データID「DID1」により識別されるデータDT1は、分類ラベルが「CL1」であることを示す。図5の例では「CL1」~「CL8」のように抽象的に図示するが、「分類ラベル」には、認識対象に関連する分類結果を示す分類ラベル(値)であるものとする。例えば、「CL1」~「CL8」は、データ(画像)がマスクを着用していない人を含む画像に分類されることを示す第1分類(の値)、データ(画像)がマスクを着用している人を含む画像に分類されることを示す第2分類(の値)、または、データ(画像)が風景画像に分類されることを示す第3分類(の値)のいずれかとなる。
なお、学習用データ記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ記憶部121は、画像や音声等の教師データの種別を示す情報を各データに対応付けて記憶する。例えば、学習用データ記憶部121は、データの種別を示す情報を各データに対応付けて記憶する。図5の例では、データは、種別が「画像」であることを示す情報を各データに対応付けて記憶する。
例えば、学習用データ記憶部121は、各データが学習データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ記憶部121は、学習データと評価用データとを区別可能に記憶する。学習用データ記憶部121は、各データが学習データや評価用データであるかを識別する情報を記憶してもよい。学習装置100は、学習データとして用いられる各データと分類ラベル(正解データ)とに基づいて、モデルを学習する。学習装置100は、評価用データとして用いられる各データと分類ラベルとに基づいて、モデルの精度を測定する。学習装置100は、評価用データを入力した場合にモデルが出力する出力結果(分類結果)と、分類ラベルとを比較した結果を収集することにより、モデルの精度を測定する。
(モデル情報記憶部122)
実施形態に係るモデル情報記憶部122は、モデルに関する情報を記憶する。例えば、モデル情報記憶部122は、学習処理により学習(生成)された学習済みモデル(モデル)の情報(モデルデータ)を記憶する。図6は、本開示の第1の実施形態に係るモデル情報記憶部の一例を示す図である。図6に、第1の実施形態に係るモデル情報記憶部122の一例を示す。図6に示した例では、モデル情報記憶部122は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図6等では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルの構成(ネットワーク構成)の情報やパラメータに関する情報等、そのモデルを構成する種々の情報が含まれる。例えば、「モデルデータ」には、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。
図6に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「画像分類」であることを示す。すなわち、モデルM1は、入力された画像データの分類を示す情報を出力するモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。
なお、モデル情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
(制御部130)
図4の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、学習装置100内部の記憶装置に記憶されている各種プログラム(学習プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図4に示すように、制御部130は、取得部131と、学習部132と、提供部133とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131)
取得部131は、記憶部120から各種の情報を取得する。取得部131は、学習用データ記憶部121から学習に用いるデータを取得する。取得部131は、モデル情報記憶部122からモデルの情報を取得する。
取得部131は、通信部110を介して、端末装置10から情報を受信する。取得部131は、端末装置10から学習用データを取得する。取得部131は、端末装置10において、画像分類処理の対象となった画像と、その画像に対応する分類結果、またユーザが修正した修正結果とのセット(組合せ)を学習用データとして端末装置10から収集する。
(学習部132)
学習部132は、モデルを学習する。学習部132は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部132は、学習用データ記憶部121に記憶された情報に基づいて、各種情報を学習する。学習部132は、学習により生成したモデルをモデル情報記憶部122に格納する。
学習部132は、入力された画像を対象として分類対象を分類する分類部PT3と、画像のうち分類対象が含まれる領域に応じて、分類部PT3が出力する結果のうち一部を強調する強調部PT4と、強調部PT4による強調結果に応じて、画像の分類結果を出力する出力部PT5とを有するモデルM1を学習する。学習部132は、入力された画像の特徴を抽出する抽出部PT2を有するモデルM1を学習する。
学習部132は、分類対象の状態に関する分類である第1分類及び第2分類と、画像に分類対象が含まれない第3分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。学習部132は、分類対象が第1状態であることを示す第1分類、分類対象が第2状態であることを示す第2分類、または第3分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
学習部132は、分類対象である人が所定の物品を装着していないことを示す第1分類、人が所定の物品を装着していることを示す第2分類、または第3分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。学習部132は、学習用画像と、第1分類、第2分類、または第3分類のうちいずれかの分類との組合せを含む学習データを用いてモデルを学習する。学習部132は、互いに分類が非容易な第1分類及び第2分類と、第1分類及び第2分類との分類が容易である第3分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
学習部132は、モデル(ネットワーク)のパラメータを学習する。学習部132は、接続されたノード間の接続係数(重み)等のパラメータを学習する。学習部132は、種々の機械学習に関する技術を用いて、モデルを学習する。学習部132は、モデルに入力するデータと、そのデータが入力された場合の出力を示す分類ラベルとを用いて行う学習処理、すなわち教師有り学習の手法によりモデルのパラメータを学習する。なお、上記は一例であり、学習部132は、モデルのパラメータを学習可能であれば、どのような学習処理により、モデルのパラメータを学習してもよい。
(提供部133)
提供部133は、通信部110を介して、端末装置10へ情報を送信する。提供部133は、端末装置10へモデルを提供する。例えば、提供部133は、端末装置10へ画像分類に用いるモデルM1を送信する。
〔3.端末装置の構成〕
次に、図7を用いて、実施形態に係る端末装置10の構成について説明する。図7は、実施形態に係る端末装置10の構成例を示す図である。図7に示すように、端末装置10は、通信部11と、記憶部12と、入力部13と、表示部14と、制御部15と、センサ部16とを有する。なお、端末装置10は、各種情報を音声出力するための音声出力部(例えばスピーカ等)を有してもよい。
(通信部11)
通信部11は、例えば、通信回路等によって実現される。そして、通信部11は、図示しない所定の通信網と有線または無線で接続され、学習装置100との間で情報の送受信を行う。
(記憶部12)
記憶部12は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、例えば、端末装置10にインストールされているアプリケーション(例えば画像分類アプリ等)に関する情報、例えばプログラム等を記憶する。また、記憶部12は、学習装置100から提供されたモデルを記憶する。例えば、記憶部12は、モデルM1を記憶する。
(入力部13)
入力部13は、ユーザからの各種操作を受け付ける。入力部13は、タッチパネル機能により表示面を介してユーザからの各種操作を受け付けてもよい。また、入力部13は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
また、入力部13は、音声を検知する機能を有し、ユーザの発話による音声入力を受け付ける。入力部13は、音声を検知するマイクにより検知されたユーザによる発話を入力として受け付ける。
例えば、入力部13は、端末装置10の表示部14を介してユーザの指定操作等の操作を受け付ける。例えば、入力部13は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部13と受付部152とは一体であってもよい。なお、入力部13によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。
(表示部14)
表示部14は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。
(制御部15)
制御部15は、コントローラであり、例えば、CPUやMPU等によって、端末装置10内部の記憶部12などの記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。例えば、この各種プログラムは、インストールされているアプリケーション(例えばメッセージアプリ等)のプログラムが含まれる。また、制御部15は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図7に示すように、制御部15は、受信部151と、受付部152と、推論部153と、処理部154と、送信部155とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図7に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(受信部151)
受信部151は、通信部11を介して、学習装置100から情報を受信する。受信部151は、学習装置100から提供されたモデルを受信する。受信部151は、モデルM1を受信する。
(受付部152)
受付部152は、各種情報を受け付ける。受付部152は、センサ部16の画像センサにより検知された画像の入力を受け付ける。受付部152は、センサ部16の画像センサにより検知された画像を分類処理の対象とする対象画像として受け付ける。
また、受付部152は、入力部13を介してユーザによる入力を受け付ける。受付部152は、ユーザによる操作を受け付ける。受付部152は、表示部14により表示された情報に対するユーザの操作を受け付ける。受付部152は、ユーザによる発話を入力として受け付ける。受付部152は、ユーザU1による「XXXX」という発話を入力として受け付ける。
(推論部153)
推論部153は、推論処理を行う。推論部153は、記憶部12に記憶されたモデルを用いて、推論処理を行う。推論部153は、受信部151により受信されたモデルを用いて推論を行う。推論部153は、受信部により受信されたモデルにデータを入力することにより、当該データに対応する分類結果を生成する推論処理を行う。推論部153は、モデルに画像データを入力することにより、当該画像データに対応する推論処理を行う。推論部153は、モデルに画像データを入力することにより、当該画像データの分類結果を生成する推論処理を行う。
(処理部154)
処理部154は、推論部153の推論結果を用いて各種の処理を実行する。処理部154は、推論部153の推論結果を表示部14に表示する。例えば、処理部154は、対象画像に含まれる人物がマスクを着用していない場合、マスクが着用されていないことを示す情報を表示する。処理部154は、対象画像に含まれる人物がマスクを着用していない場合、表示部14の表示を点滅させることによりアラートを通知する。処理部154は、対象画像に含まれる人物がマスクを着用していない場合、音声出力部により音を出力させることによりアラートを通知する。
(送信部155)
送信部155は、通信部11を介して、学習装置100へ情報を送信する。送信部155は、モデルM1を要求する要求情報を学習装置100に送信する。また、送信部155は、画像と分類結果とのセットを学習用データとして、学習装置100に送信してもよい。例えば、送信部155は、画像と、モデルM1が出力したその画像の分類結果と、その分類結果が正解であるか否かを示す情報とを学習用データとして、学習装置100に送信してもよい。送信部155は、推論において入力に用いた画像データと、その画像データに対応する出力結果をユーザが修正したデータとのセットを学習用データとして、学習装置100に送信する。
なお、上述した制御部15による各処理は、例えば、JavaScript(登録商標)などにより実現されてもよい。また、上述した表示処理が所定のアプリケーション(例えば画像分類アプリ等)により行われる場合や推論処理等の処理が専用アプリにより行われる場合、制御部15は、例えば、所定のアプリや専用アプリを制御するアプリ制御部を有してもよい。
(センサ部16)
センサ部16は、所定の情報を検知する。センサ部16は、画像センサを有し画像を撮像する。例えば、センサ部16は、画像センサとして機能するインカメラを有し、画面を見ながら操作するユーザを撮像する。
なお、センサ部16は、画像センサに限らず、様々な情報を検知するセンサを有してもよい。また、センサ部16は、加速度センサやジャイロセンサ等を有し、ユーザの運動状態を検知する。また、センサ部16は、GPSセンサ等の位置センサを有し、ユーザの位置情報を検知する。また、センサ部16は、温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のユーザの置かれている環境情報を検知し、取得可能であってもよい。また、センサ部16は、心拍センサ等の種々の機能を有し、ユーザの生体情報を検知し、取得可能であってもよい。例えば、センサ部16を利用するユーザは、センサ部16と通信可能なウェアラブルデバイスを身に付けることにより、センサ部16によりユーザ自身のコンテキスト情報を取得可能としてもよい。例えば、センサ部16を利用するユーザは、センサ部16と通信可能なリストバンド型のウェアラブルデバイスを身に付けることにより、センサ部16によりユーザ自身の心拍(脈拍)に関する情報をセンサ部16が取得可能としてもよい。
〔4.処理フロー〕
次に、図8を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図8は、実施形態に係る学習装置による処理の一例を示すフローチャートである。
図8に示すように、学習装置100は、学習用データを取得する(ステップS101)。すなわち、学習装置100は、機械学習のモデルの学習に用いるデータと、当該データの分類結果を示す分類ラベル(正解情報)とを含む学習用データを取得する。
学習装置100は、画像の分類結果を出力するモデルを学習する(ステップS102)。例えば、学習装置100は、データの入力に応じて、データの分類を示す分類ラベルを出力するモデルを学習する。学習装置100は、学習したモデルを端末装置へ提供する(ステップS103)。学習装置100は、学習したモデルを端末装置10へ提供する。
次に、図9を用いて端末装置10におけるモデルを用いた推論等の処理の流れを示す。図9は、実施形態に係る端末装置による処理の一例を示すフローチャートである。
図9に示すように、端末装置10は、モデルを受信していない場合(ステップS201:No)、モデルを受信するまで待機する。端末装置10は、モデルを受信した後(ステップS201:Yes)、対象画像を受け付けていない場合(ステップS202:No)、対象画像を受け付けるまで待機する。
端末装置10は、対象画像を受け付けた場合(ステップS202:Yes)、対象画像を分類する推論処理を実行する(ステップS203)。例えば、端末装置10は、モデルに対象画像を入力することにより、対象画像を分類する推論処理を実行する。
そして、端末装置10は、推論結果を表示する(ステップS204)。例えば、端末装置10は、対象画像に含まれる人物がマスクを着用していない場合、マスクが着用されていないことを示す情報を表示する。なお、端末装置10は、対象画像に含まれる人物がマスクを着用していない場合、音や点滅などによるアラートを通知してもよい。
〔5.効果〕
上述してきたように、実施形態に係る学習装置100は、学習部132を有する。学習部132は、入力された画像を対象として分類対象を分類する分類部(実施形態ではモデルM1の分類部PT3)と、画像のうち分類対象が含まれる領域に応じて、分類部が出力する結果のうち一部を強調する強調部(実施形態ではモデルM1の強調部PT4)と、強調部による強調結果に応じて、画像の分類結果を出力する出力部(実施形態ではモデルM1の出力部PT5)とを有するモデル(実施形態ではモデルM1)を学習する。
これにより、実施形態に係る学習装置100は、例えば人の顔などの分類対象が含まれる領域を強調し、分類を行うモデルを学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、分類対象の状態に関する分類である第1分類及び第2分類と、画像に分類対象が含まれない第3分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
これにより、実施形態に係る学習装置100は、分類対象の状態に関する分類である第1分類及び第2分類と、画像に分類対象が含まれない第3分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、分類対象が第1状態であることを示す第1分類、分類対象が第2状態であることを示す第2分類、または第3分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
これにより、実施形態に係る学習装置100は、分類対象が第1状態であることを示す第1分類、分類対象が第2状態であることを示す第2分類、または第3分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、分類対象である人が所定の物品を装着していないことを示す第1分類、人が所定の物品を装着していることを示す第2分類、または第3分類のうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
これにより、実施形態に係る学習装置100は、分類対象である人が所定の物品を装着していないことを示す第1分類、人が所定の物品を装着していることを示す第2分類、または第3分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、学習用画像と、第1分類、第2分類、または第3分類のうちいずれかの分類との組合せを含む学習データを用いてモデルを学習する。
これにより、実施形態に係る学習装置100は、学習用画像と、正解となる分類(ラベル)との組合せを含む学習データを用いてモデルを学習することにより、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、互いに分類が非容易な第1分類及び第2分類と、第1分類及び第2分類との分類が容易である第3分類とのうちいずれであるかを示す画像の分類結果を、出力部が出力するモデルを学習する。
これにより、実施形態に係る学習装置100は、互いに分類が非容易な第1分類及び第2分類と、第1分類及び第2分類との分類が容易である第3分類のいずれかに画像を分類するモデルを学習することができる。したがって、学習装置100は、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
また、実施形態に係る学習装置100において、学習部132は、入力された画像の特徴を抽出する抽出部(実施形態ではモデルM1の抽出部PT2)を有するモデルを学習し、分類部は、抽出部の抽出結果を用いて分類対象を分類し、強調部は、抽出部の抽出結果を用いて一部を強調する。
これにより、実施形態に係る学習装置100は、入力された画像の特徴を抽出する抽出部を有するモデルを学習することにより、分類対象に応じて適切な分類結果を出力するモデルを学習することができる。
〔6.ハードウェア構成〕
また、上述した実施形態に係る端末装置10や学習装置100は、例えば図10に示すような構成のコンピュータ1000によって実現される。以下、学習装置100を例に挙げて説明する。図10は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USBメモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が学習装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
〔7.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
例えば、上述した学習装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。例えば、学習装置100におけるモデルの学習部分と学習済モデル提供部分とは別々の装置であってもよい。この場合、情報処理システム1は、学習装置100に替えて、学習用データ記憶部121、取得部131、及び学習部132を少なくとも有する第1情報処置装置と、モデル情報記憶部122及び提供部133を少なくとも有する第2情報処置装置とを有する構成であってもよい。また、学習装置100と端末装置10とは一体であってもよい。この場合、例えばユーザが利用する端末装置10が学習装置100としての機能を有してもよい。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理システム
100 学習装置
120 記憶部
121 学習用データ記憶部
122 モデル情報記憶部
130 制御部
131 取得部
132 学習部
133 提供部
10 端末装置
11 通信部
12 記憶部
13 入力部
14 表示部
15 制御部
151 受信部
152 受付部
153 推論部
154 処理部
155 送信部

Claims (6)

  1. 入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習部と、
    前記学習部により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供部と、
    を備え、
    前記学習部は、
    前記人が手に持っていないことを示す第1分類、前記人が前記手に持っていることを示す第2分類、または、前記画像に前記人が含まれない第3分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
    前記提供部は、
    前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習装置。
  2. 前記学習部は、
    学習用画像と、前記第1分類、前記第2分類、または前記第3分類のうちいずれかの分類との組合せを含む学習データを用いて前記モデルを学習する
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記学習部は、
    互いに分類が非容易な前記第1分類及び前記第2分類と、前記第1分類及び前記第2分類との分類が容易である前記第3分類とのうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習する
    ことを特徴とする請求項1または請求項2に記載の学習装置。
  4. 前記学習部は、
    入力された前記画像の特徴を抽出する抽出部を有する前記モデルを学習し、
    前記分類部は、前記抽出部の抽出結果を用いて前記人を分類し、
    前記強調部は、前記抽出部の抽出結果を用いて前記一部を強調する
    ことを特徴とする請求項1~3のいずれか1項に記載の学習装置。
  5. コンピュータが実行する学習方法であって、
    入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習工程と、
    前記学習工程により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供工程と、
    を含み、
    前記学習工程は、
    前記人が手に持っていないことを示す第1分類、前記人が前記手に持っていることを示す第2分類、または、前記画像に前記人が含まれない第3分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
    前記提供工程は、
    前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習方法。
  6. 入力された画像を対象として人を分類する分類部と、前記画像のうち前記人が含まれる領域に応じて、前記分類部が出力する結果のうち一部を強調する強調部と、前記強調部による強調結果に応じて、前記画像の分類結果を出力する出力部とを有するモデルであって、前記人であるユーザが利用する端末装置により撮像された画像を対象とする推論に用いられるモデルを学習する学習手順と、
    前記学習手順により学習された前記モデルを前記ユーザが利用する端末装置に提供する提供手順と、
    をコンピュータに実行させ、
    前記学習手順は、
    前記人が手に持っていないことを示す第1分類、前記人が前記手に持っていることを示す第2分類、または、前記画像に前記人が含まれない第3分類のうちいずれであるかを示す前記画像の分類結果を、前記出力部が出力する前記モデルを学習し、
    前記提供手順は、
    前記モデルにより前記人が前記傘を持っていないとの分類結果が出力され、かつ天気予報で雨である場合、前記傘を携帯することを促すメッセージを出力する前記端末装置に、前記モデルを提供することを特徴とする学習プログラム。
JP2020156747A 2020-09-17 2020-09-17 学習装置、学習方法、及び学習プログラム Active JP7348150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020156747A JP7348150B2 (ja) 2020-09-17 2020-09-17 学習装置、学習方法、及び学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020156747A JP7348150B2 (ja) 2020-09-17 2020-09-17 学習装置、学習方法、及び学習プログラム

Publications (2)

Publication Number Publication Date
JP2022050251A JP2022050251A (ja) 2022-03-30
JP7348150B2 true JP7348150B2 (ja) 2023-09-20

Family

ID=80854315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020156747A Active JP7348150B2 (ja) 2020-09-17 2020-09-17 学習装置、学習方法、及び学習プログラム

Country Status (1)

Country Link
JP (1) JP7348150B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016161997A (ja) 2015-02-26 2016-09-05 Kddi株式会社 情報提示装置、情報提示システムおよびプログラム
JP2018151919A (ja) 2017-03-14 2018-09-27 オムロン株式会社 画像解析装置、画像解析方法、及び画像解析プログラム
JP2018169972A (ja) 2017-03-30 2018-11-01 Kddi株式会社 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
JP2019109843A (ja) 2017-12-20 2019-07-04 コニカミノルタ株式会社 分類装置、分類方法、属性認識装置、及び機械学習装置
JP2019533866A (ja) 2016-10-31 2019-11-21 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 制御フィードバックを用いる画像セグメンテーションの方法及びシステム
JP2020508143A (ja) 2017-02-22 2020-03-19 ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ インスタンス重み付けを伴うランダムフォレストを使用するマルチパラメトリックmriにおける前立腺がんの検出、およびホリスティックネスト型ネットワークを用いたディープラーニングによるmr前立腺セグメント化
JP2020524348A (ja) 2017-08-31 2020-08-13 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016161997A (ja) 2015-02-26 2016-09-05 Kddi株式会社 情報提示装置、情報提示システムおよびプログラム
JP2019533866A (ja) 2016-10-31 2019-11-21 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 制御フィードバックを用いる画像セグメンテーションの方法及びシステム
JP2020508143A (ja) 2017-02-22 2020-03-19 ザ ユナイテッド ステイツ オブ アメリカ, アズ リプレゼンテッド バイ ザ セクレタリー, デパートメント オブ ヘルス アンド ヒューマン サービシーズ インスタンス重み付けを伴うランダムフォレストを使用するマルチパラメトリックmriにおける前立腺がんの検出、およびホリスティックネスト型ネットワークを用いたディープラーニングによるmr前立腺セグメント化
JP2018151919A (ja) 2017-03-14 2018-09-27 オムロン株式会社 画像解析装置、画像解析方法、及び画像解析プログラム
JP2018169972A (ja) 2017-03-30 2018-11-01 Kddi株式会社 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
JP2020524348A (ja) 2017-08-31 2020-08-13 深▲せん▼市商▲湯▼科技有限公司Shenzhen Sensetime Technology Co., Ltd. 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体
JP2019109843A (ja) 2017-12-20 2019-07-04 コニカミノルタ株式会社 分類装置、分類方法、属性認識装置、及び機械学習装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
小倉輝 ほか、データサイエンスエンジニア3人での開発の進め方~社内ハッカソンでダブル受賞しました[オンライン]、2020年8月4日[検索日 2022.11.28]、インターネット:<URL: https://techblog.yahoo.co.jp/entry/2020080430014499/>
森啓介 ほか、Attention Branch Networkによる一貫学習・強化学習におけるアテンションの獲得、第36回日本ロボット学会学術講演会、2018年9月

Also Published As

Publication number Publication date
JP2022050251A (ja) 2022-03-30

Similar Documents

Publication Publication Date Title
US11671386B2 (en) Electronic device and method for changing chatbot
US20210256264A1 (en) Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof
KR102643027B1 (ko) 전자 장치, 그의 제어 방법
US10587776B2 (en) Electronic device and method for controlling the electronic device
US20190042574A1 (en) Electronic device and method for controlling the electronic device
US20170278172A1 (en) System, method and computer program product providing eye tracking based cognitive filtering and product recommendations
WO2018160893A1 (en) Skills clustering with latent representation of words
US20180158163A1 (en) Inferring appropriate courses for recommendation based on member characteristics
EP3523710B1 (en) Apparatus and method for providing a sentence based on user input
US11475218B2 (en) Apparatus and method for providing sentence based on user input
US20180197094A1 (en) Apparatus and method for processing content
US11481811B2 (en) Electronic device and method for controlling same
US20160086088A1 (en) Facilitating dynamic affect-based adaptive representation and reasoning of user behavior on computing devices
CN110168543A (zh) 用于处理内容的装置和方法
KR20240032779A (ko) 전자 장치, 그의 제어 방법
Sardar et al. Mobile sensors based platform of Human Physical Activities Recognition for COVID-19 spread minimization
KR102499379B1 (ko) 전자 장치 및 이의 피드백 정보 획득 방법
JP7348150B2 (ja) 学習装置、学習方法、及び学習プログラム
US20200150752A1 (en) Utilizing machine learning to determine survey questions based on context of a person being surveyed, reactions to survey questions, and environmental conditions
US20230123815A1 (en) Stability scoring of individuals utilizing inertial sensor device
Gupta et al. Multi-stage Indian sign language classification with Sensor Modality Assessment
JP2020064568A (ja) 映像解析システム、学習装置、及びその方法
JP7408518B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム
US11921729B1 (en) Context-aware recommendations in a health management platform user interface
JP7476091B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210812

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220125

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220125

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220202

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220208

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220415

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220419

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220621

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230907

R150 Certificate of patent or registration of utility model

Ref document number: 7348150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350