JP7173309B2 - 学習方法、学習プログラム、および、学習装置 - Google Patents

学習方法、学習プログラム、および、学習装置 Download PDF

Info

Publication number
JP7173309B2
JP7173309B2 JP2021519081A JP2021519081A JP7173309B2 JP 7173309 B2 JP7173309 B2 JP 7173309B2 JP 2021519081 A JP2021519081 A JP 2021519081A JP 2021519081 A JP2021519081 A JP 2021519081A JP 7173309 B2 JP7173309 B2 JP 7173309B2
Authority
JP
Japan
Prior art keywords
learning
image
sub
module
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519081A
Other languages
English (en)
Other versions
JPWO2020230244A1 (ja
Inventor
琢 佐々木
啓太 三上
将司 外山
邦広 森賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020230244A1 publication Critical patent/JPWO2020230244A1/ja
Application granted granted Critical
Publication of JP7173309B2 publication Critical patent/JP7173309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習方法、学習プログラム、および、学習装置に関する。
従来、画像解析において、解析対象の画像から、オブジェクト(例えば、人物)の映っている部分を切り出し、切り出した部分の特徴量を抽出し、抽出した特徴量に基づき、切り出した部分の分析を行う技術がある。ここで、深層学習により画像解析を行う場合、上記のオブジェクトの特徴量を抽出する工程において、いわゆるアテンション機構を搭載したモデル(アテンションモデル)を用いることが提案されている(非特許文献1参照)。
アテンションモデルは、切り出し済みの画像(切出済画像)に含まれるいくつかの領域に着目し、着目する領域ごとに特徴量を抽出するモデルである。例えば、オブジェクトが人物である場合、アテンションモデルは、切出済画像から頭部、上半身、下半身等のサブオブジェクトの領域をピックアップし、ピックアップした領域ごとに特徴量を抽出する。このように着目する領域ごとに特徴量を抽出することで、切り出した部分の分析を行う際、分析精度を向上させることができる。
ここで、アテンションモデルの一つに、HA-CNN(Harmonious Attention Convolutional Neural Network、非特許文献1参照)がある。このHA-CNNにおける特徴量抽出モジュールは、1本のglobal branchと、複数本のlocal branchとを備える。このlocal branchはそれぞれ、上記の切出済画像からオブジェクトの一部の領域(サブオブジェクトの領域)をピックアップし、そのピックアップした領域の特徴量を抽出する。そして、分析モジュール(例えば、画像のオブジェクトの分類モジュールおよび属性推定モジュール)は、抽出された各サブオブジェクトの領域の特徴量に基づき、オブジェクトの分析を行う(図1参照)。
ここで、HA-CNNの特徴量抽出モジュールの学習は、当該特徴量抽出モジュールの後続のモジュール(例えば、分析モジュール)から逆伝搬されてきた誤差を元に、特徴量抽出モジュールの重みパラメータを更新することにより行われる。
例えば、HA-CNNの分析モジュールが、図2に示すように、画像のオブジェクトの分類モジュールおよび属性推定モジュールを備える場合を考える。この場合、分類モジュールおよび属性推定モジュールから逆伝搬されてきた誤差に基づき、特徴量抽出モジュールの各local branchの重みパラメータが更新される。これにより特徴量抽出モジュールの各local branchは、分析モジュールによる分析精度を向上させるように最適化される。例えば、分析モジュールによる分析精度を向上させるよう、各local branchが担当するサブオブジェクトの領域が更新される。上記のような学習を、説明の便宜上、特徴量抽出モジュールの間接的な反省と呼ぶ。
Wei Li et al., Harmonious Attention Network for Person Re-identification, CVPR2018 (arXiv:1802.08122)、[平成31年4月19日検索]、インターネット<URL:https://arxiv.org/abs/1802.08122>
ここで、上記のHA-CNNが扱う画像のオブジェクトが人物である場合、切出済画像はそれぞれ、人物の全身が映っていて、人物が直立しているような画像であり、サブオブジェクト(例えば、頭、上半身、下半身等)が同じ順序で並んでいる場合しか想定されていない。したがって、上記の切出済画像により学習された特徴量抽出モジュールは、人物の全身が映っていて直立しているような画像については、人物のサブオブジェクトそれぞれの領域を正確にピックアップできる。その結果、分析モジュールによる画像の分析精度も高かった。
ここで、上記の切出済画像が不完全(例えば、オブジェクトの一部しか映っていない、サブオブジェクトの順序が画像ごとに異なる等)である場合も多々ある。このような場合、特徴量抽出モジュールは、各サブオブジェクトの領域を正確にピックアップできないおそれがある。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。
このことを、図3を用いて具体的に説明する。例えば、HA-CNNの扱う切出済画像が符号101に示すように人物の全身が映っていて直立している画像である場合、特徴量抽出モジュールの1本目のlocal branchは、符号101に示す画像から人物の上半身をピックアップし、2本目のlocal branchは、符号101に示す画像から人物の下半身をピックアップする。
一方、HA-CNNの扱う切出済画像が符号102に示すように、人物の下半身のみが映っている画像である場合、特徴量抽出モジュールの1本目のlocal branchは、符号102に示す画像から人物のズボンの部分をピックアップし、2本目のlocal branchは、符号102に示す画像から人物の膝下の部分をピックアップする。つまり、切出済画像が不完全だと、HA-CNNの特徴量抽出モジュールは、各サブオブジェクトの領域(例えば、人物の上半身、下半身)を正確にピックアップできない。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。
そこで、本発明は、前記した問題を解決し、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることを課題とする。
前記した課題を解決するため、本発明は、学習装置により実行される学習方法であって、学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、を含むことを特徴とする。
本発明によれば、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることができる。
図1は、HA-CNNを説明するための図である。 図2は、HA-CNNにおける特徴量抽出モジュールの学習を説明するための図である。 図3は、HA-CNNにおけるサブオブジェクトの抽出の例を示す図である。 図4は、本実施形態の学習装置の概要を説明する図である。 図5は、本実施形態の学習装置の構成例を示す図である。 図6は、本実施形態における、サブオブジェクトの座標の自動付与の例を示す図である。 図7は、本実施形態における、切出済画像の作成方法の例を示す図である。 図8は、本実施形態のlocal branchがピックアップする領域の例を示す図である。 図9は、本実施形態の学習装置の処理手順の例を示す図である。 図10は、本実施形態の学習装置により学習されたディープニューラルネットワークによる分析結果の例を示す図である。 図11は、本実施形態の学習プログラムを実行するコンピュータの例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[概要]
まず、図4を用いて、本実施形態の学習装置の概要を説明する。ここでの学習の対象は、画像解析を行うディープニューラルネットワークであるものとする。このディープニューラルネットワークは、解析対象の画像から、オブジェクトの映っている部分を切り出す切出モジュール(図4において図示省略)と、切り出した部分の特徴量を抽出する特徴量抽出モジュールと、抽出した特徴量に基づき、切り出した部分の分析を行う分析モジュールとを備えるものとする。
特徴量抽出モジュールは、画像から特徴量を抽出する複数のモジュールから構成される。このモジュールは、例えば、HA-CNN等で用いられるlocal branchである。以下、特徴量抽出モジュールを構成するモジュールはlocal branchである場合を例に説明する。この特徴量抽出モジュールは、global branchを含んでいてもよい。また、分析モジュールは、画像に映ったオブジェクトの分類を行う分類モジュールと、当該オブジェクトの属性を推定する属性推定モジュールとを備える場合を例に説明する。
学習装置は、特徴量抽出モジュールのlocal branchそれぞれに、当該local branchが担当する(ピックアップすべき)サブオブジェクトを割り当てる。このサブオブジェクトは、オブジェクトを構成するオブジェクトである。
例えば、オブジェクトが人物である場合、当該オブジェクトのサブオブジェクトは上半身や下半身等である。例えば、学習装置は、図4の符号401に示すlocal branchが担当するサブオブジェクトとして人物の上半身を割り当て、符号402に示すlocal branchが担当するサブオブジェクトとして人物の下半身を割り当てる。
その後、学習装置は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習装置は、切出済画像の1枚1枚に対して各local branchがピックアップすべきサブオブジェクトが存在する領域(local branchがピックアップすべき領域)を示した情報を用いて、local branchそれぞれがピックアップすべきサブオブジェクトの領域の学習を行う。
例えば、学習装置は、図4の符号401に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。また、符号402に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。このような調整を繰り返すことにより、local branchそれぞれは、自身に割り当てられたサブオブジェクトの領域を正確にピックアップできるようになる。このような調整(学習)を、説明の便宜上、特徴量抽出モジュールの直接的な反省と呼ぶ。また、学習装置は、分析モジュールによる分析精度をより向上させるためには、local branchそれぞれがどの領域をピックアップすればよいのかの学習も行う(つまり、前記した間接的な反省も行う)。
このように学習装置が、特徴量抽出モジュールの学習にあたり、上記の間接的な反省に加え、直接的な反省も行うことで、上記の間接的な反省のみで学習を行うよりも、学習に必要な画像数やエポック数を大幅に低減することができる。
[構成]
次に、図5を用いて、学習装置の構成例を説明する。学習装置10は、入出力部11と、記憶部12と、制御部13とを備える。
入出力部11は、各種情報の入力や出力を司る。入出力部11は、例えば、特徴量抽出モジュールが参照する部分画像等の入力を受け付ける。
記憶部12は、制御部13が上記の学習処理を実行する際に参照する各種情報を記憶する。例えば、記憶部12は、上記の入出力部11経由で入力された部分画像、制御部13による学習により得られたディープニューラルネットワークのモデルを記憶する。モデルは、例えば、上記のディープニューラルネットワークで用いられる各種モジュール(切出モジュール、特徴量抽出モジュール、分析モジュール)のパラメータ値等を示した情報である。このモデルの情報は、制御部13による学習処理により適宜更新される。
上記の部分画像は、例えば、画像ごとに、当該画像においてサブオブジェクトが存在する領域(つまり、local branchがピックアップすべき領域)の情報を付与したものである。このサブオブジェクトが存在する領域の情報(例えば、座標)は、手動で付与してもよいし、自動で付与してもよい。
例えば、学習装置10が特徴量抽出モジュールにおいて、人物の上半身と下半身という2つのサブオブジェクトをピックアップすると定め、画像においてこれらのサブオブジェクトが存在する領域の情報(例えば、座標)を自動で付与する場合を考える。
この場合、例えば、人物の全身が映った切出済画像(図6の符号601参照)と、上半身が映った切出済画像(図6の符号602参照)と、下半身が映った切出済画像(図6の符号603参照)とを予め用意しておく。
そして、学習装置10は、これらの切出済画像について、人物の全身が映った切出済画像に対しては「切出済画像の上半分が上半身で、切出済画像の下半分が下半身」、上半身が映った切出済画像に対しては「切出済画像の全体が上半身で、下半身は存在せず」、下半身が映った切出済画像に対しては「切出済画像の全体が下半身で、上半身は存在せず」と判断する。その後、学習装置10は、上記の判断結果に基づき、各切出済画像において上半身の存在する領域と下半身の存在する領域とを、例えば、矩形領域の四辺の座標で付与する。そして、学習装置10は、各サブオブジェクトの存在する領域の座標を付与した切出済画像を、部分画像として記憶部12に格納する。なお、学習装置10は、上半身が映った切出済画像と下半身が映った切出済画像とを用意する際、図7に示すように、全身の映った切出済画像を上下2つに分割することにより用意してもよい。
図5の説明に戻る。制御部13は、サブオブジェクト割当部131と、学習部132とを備える。
サブオブジェクト割当部131は、特徴量抽出モジュールを構成するlocal branchごとに、当該local branchが担当するサブオブジェクトを割り当てる。つまり、サブオブジェクト割当部131は、local branchごとに、当該local branchが、オブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトをピックアップし、特徴量を抽出するかを割り当てる。ここで特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数、種類は任意の数、種類でよい。
例えば、ディープニューラルネットワークが扱うオブジェクトが人物である場合において、特徴量抽出モジュールがピックアップするサブオブジェクトの数を2個としたとき、サブオブジェクト割当部131は、1本目のlocal branchに人物の上半身を割り当て、2本目のlocal branchに人物の下半身を割り当てる。また、同様に、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を2個とした場合、サブオブジェクト割当部131は、1本目のlocal branchに人物の右半身を割り当て、2本目のlocal branchに人物の左半身を割り当ててもよい。
さらに、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を3個とした場合、サブオブジェクト割当部131は、例えば、1本目のlocal branchに人物の顔面を割り当て、2本目のlocal branchに人物の顔面を除く上半身を割り当て、3本目のlocal branchに人物の下半身を割り当てる。
学習部132は、サブオブジェクト割当部131により各local branchに割り当てられたサブオブジェクトの領域について、前記した間接的反省(第2の学習)に加え、部分画像を用いた直接的反省(第1の学習)を行う。
つまり、学習部132は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、local branchそれぞれが当該local branchに割り当てられたサブオブジェクトの領域を精度よくピックアップできるようlocal branchそれぞれの学習(第1の学習)を行い、また、local branchそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、当該画像分析の分析精度をより向上させるようlocal branchそれぞれの学習(第2の学習)を行う。
なお、学習部132が、各local branchの直接的反省(第1の学習)を行う場合の損失関数は、例えば、以下のようなものが考えられる。
例えば、各local branchがピックアップする領域の形状が矩形であり、i本目のlocal branchが実際にピックアップした矩形領域の座標が(x0,x1,y0,y1)であり、i本目のlocal branchがピックアップすべき矩形領域の座標が以下のように与えられた場合を考える。
Figure 0007173309000001
この場合、学習部132は、i本目のlocal branchに直接伝播する損失関数として、例えば以下の式(1)を用いる。
Figure 0007173309000002
学習部132は、直接的反省および間接的反省により得られた特徴量抽出モジュールのパラメータ値を用いて、記憶部12内のモデルを更新する。
[処理手順]
図9を用いて、上記の学習装置10の処理手順の例を説明する。まず、学習装置10のサブオブジェクト割当部131は、学習対象のディープニューラルネットワークの特徴量抽出モジュールにおける各local branchへのサブオブジェクトの割り当てを行う(S1)。その後、学習部132は、上記の特徴量抽出モジュールの各local branchの学習を行う(S2)。すなわち、学習部132は、分析モジュールから逆伝搬されてきた誤差を用いた各local branchの間接的反省に加え、記憶部12の部分画像を用いた各local branchの直接的反省を行う。
[効果]
上記の学習装置10は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域を所与のものとし、さらにその誤差を損失関数として計上して、直接的な反省も行う。これにより、特徴量抽出モジュールのlocal branchそれぞれは、オブジェクトの映り方が不完全な切出済画像に対しても、当該オブジェクトの狙った部位(サブオブジェクト)を正確にピックアップすることができる。その結果、特徴量抽出モジュールは各サブオブジェクトの特徴量を精度よく抽出できるので、分析モジュールが当該オブジェクトの分析(例えば、分類、属性推定、照合等)を行う際の精度を向上させることができる。
例えば、監視カメラで撮影された映像に対し、映像に映った人物の自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置10による学習を適用すれば、「迷子になった赤い服を着た5歳の女の子を探したい」、または、「この写真の犯人を捜したい」という要求があった場合に、従来は目視で扱うしかなかった「身体の一部しか映っていない切出済画像」に対しても自動解析を行うことができる。
監視カメラで撮影された映像に対し、人物自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置10による学習を適用した場合と、従来技術(HA-CNN)による学習を適用した場合との比較結果を図10に示す。
ここでは、それぞれのディープニューラルネットワークに対し、切出済画像の中から、「ボーダーのズボンの人物」(図10の左側の「この人物を探せ」に示す画像の人物)に似ている上位5枚の画像を探すよう指示した。
この場合、比較例である従来技術(HA-CNN)により学習したディープニューラルネットワークは、本来「ボーダーのズボンの人物」を探すべきところ、上記の上位5枚の画像の中には「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれている。これは、比較元の切出済画像(図10の「この人物を探せ」に示す画像)に、人物の下半身しか映っておらず、ディープニューラルネットワークにおいて画像上の領域と部位の紐づけに失敗したためと考えられる。
一方で、本実施形態の学習装置10により学習したディープニューラルネットワークは、切出済画像の中から探した上記の上位5枚の画像の中に「ボーダーのズボンの人物」のみが含まれており、「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれていない。このことから本実施形態の学習装置10により学習したディープニューラルネットワークは、不完全な切出済画像であっても精度よく検索できることが示された。
つまり、従来技術では、ディープニューラルネットワークの特徴量抽出モジュールにおいて各local branchがどのサブオブジェクトを担当すべきかを事前に決めていなかった。そのため、各local branchがどのサブオブジェクトを担当すべきかは、後続の分析モジュールからの間接的な反省に頼らざるを得なかった。その結果、各local branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習を積むためは、学習用データを多数用意したり、長時間の学習時間を用意したりする必要があった。
一方、本実施形態の学習装置10は、特徴量抽出モジュールにおける各local branchがどのサブオブジェクトを担当すべきかを事前に決めておく。これにより、学習装置10は、前記した各local branchの間接的な反省に加え、直接的な反省も行えるようになる。その結果、現実的に確保できる量の学習用データや学習時間により、特徴量抽出モジュールの各local branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習することができる。
[プログラム]
また、上記の実施形態で述べた学習装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、学習装置10を、クラウドサーバに実装してもよい。
図11を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図11に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図11に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、上記の学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 入出力部
13 制御部
12 記憶部
131 サブオブジェクト割当部
132 学習部

Claims (6)

  1. 学習装置により実行される学習方法であって、
    学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
    画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、
    を含むことを特徴とする学習方法。
  2. 前記第1の学習に用いられる画像は、
    前記オブジェクトの一部しか映っていない画像を含む
    ことを特徴とする請求項1に記載の学習方法。
  3. 前記第1の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
    前記サブオブジェクトの領域が、前記画像を矩形に分割した領域のうち、どの領域に属するかを示す情報である
    ことを特徴とする請求項1に記載の学習方法。
  4. 前記第1の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
    前記画像における前記サブオブジェクトの座標情報である
    ことを特徴とする請求項1に記載の学習方法。
  5. 学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
    画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、
    をコンピュータに実行させることを特徴とする学習プログラム。
  6. 学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるサブオブジェクト割当部と、
    画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行する学習部と、
    を備えることを特徴とする学習装置。
JP2021519081A 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置 Active JP7173309B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/018980 WO2020230244A1 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置

Publications (2)

Publication Number Publication Date
JPWO2020230244A1 JPWO2020230244A1 (ja) 2020-11-19
JP7173309B2 true JP7173309B2 (ja) 2022-11-16

Family

ID=73288965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519081A Active JP7173309B2 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置

Country Status (3)

Country Link
US (1) US12094189B2 (ja)
JP (1) JP7173309B2 (ja)
WO (1) WO2020230244A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022172817A1 (ja) * 2021-02-10 2022-08-18
CN113021355B (zh) * 2021-03-31 2022-07-08 重庆正格技术创新服务有限公司 一种用于预测遮挡农作物摘取点的农业机器人作业方法
WO2023228230A1 (ja) * 2022-05-23 2023-11-30 日本電気株式会社 分類装置、学習装置、分類方法、学習方法、およびプログラム
CN116052220B (zh) * 2023-02-07 2023-11-24 北京多维视通技术有限公司 行人重识别方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180122098A1 (en) 2016-06-16 2018-05-03 Beijing Sensetime Technology Development Co., Ltd Posture Estimation Method and Apparatus, and Computer System
CN108229492A (zh) 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 提取特征的方法、装置及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664515B2 (en) * 2015-05-29 2020-05-26 Microsoft Technology Licensing, Llc Task-focused search by image
US11080918B2 (en) * 2016-05-25 2021-08-03 Metail Limited Method and system for predicting garment attributes using deep learning
CN115097937A (zh) * 2016-11-15 2022-09-23 奇跃公司 用于长方体检测的深度学习系统
WO2018232378A1 (en) * 2017-06-16 2018-12-20 Markable, Inc. Image processing system
CN108109055B (zh) * 2018-01-08 2021-04-30 中国石油大学(华东) 一种基于图像渲染的跨场景服装检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180122098A1 (en) 2016-06-16 2018-05-03 Beijing Sensetime Technology Development Co., Ltd Posture Estimation Method and Apparatus, and Computer System
CN108229492A (zh) 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 提取特征的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wei Li et al.,Harmonious Attention Network for Person Re-identification,CVPR2018,2018年02月22日,pp.1-10,https://arxiv.org/pdf/1802.08122.pdf,[検索日 2019.7.30]

Also Published As

Publication number Publication date
US12094189B2 (en) 2024-09-17
US20220222928A1 (en) 2022-07-14
JPWO2020230244A1 (ja) 2020-11-19
WO2020230244A1 (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
JP7173309B2 (ja) 学習方法、学習プログラム、および、学習装置
CN109359538B (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
US20210264144A1 (en) Human pose analysis system and method
Rahim et al. Hand gesture recognition based on optimal segmentation in human-computer interaction
Oloyede et al. Improving face recognition systems using a new image enhancement technique, hybrid features and the convolutional neural network
CN110222686B (zh) 物体检测方法、装置、计算机设备和存储介质
CN112381837B (zh) 一种图像处理方法及电子设备
CN108846404B (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
JP2007072620A (ja) 画像認識装置及びその方法
JP2014164656A (ja) 画像処理方法およびプログラム
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN111723687A (zh) 基于神经网路的人体动作识别方法和装置
CN111667005A (zh) 一种采用rgbd视觉传感的人体交互系统
JP2018032340A (ja) 属性推定装置、属性推定方法および属性推定プログラム
CN111104911A (zh) 一种基于大数据训练的行人重识别方法及装置
CN112101293A (zh) 人脸表情的识别方法、装置、设备及存储介质
CN109493279B (zh) 一种大规模无人机图像并行拼接方法
Pathak et al. A framework for dynamic hand gesture recognition using key frames extraction
CN114241202B (zh) 着装分类模型的训练方法及装置、着装分类方法及装置
Gao et al. 3d face reconstruction from volumes of videos using a mapreduce framework
Xie et al. Towards Hardware-Friendly and Robust Facial Landmark Detection Method
CN105405143B (zh) 一种基于全局期望最大算法的手势分割方法及系统
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221017

R150 Certificate of patent or registration of utility model

Ref document number: 7173309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150