JP7405145B2 - モデル生成装置、モデル生成方法、及び、プログラム - Google Patents

モデル生成装置、モデル生成方法、及び、プログラム Download PDF

Info

Publication number
JP7405145B2
JP7405145B2 JP2021543900A JP2021543900A JP7405145B2 JP 7405145 B2 JP7405145 B2 JP 7405145B2 JP 2021543900 A JP2021543900 A JP 2021543900A JP 2021543900 A JP2021543900 A JP 2021543900A JP 7405145 B2 JP7405145 B2 JP 7405145B2
Authority
JP
Japan
Prior art keywords
reliability
target
class
model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543900A
Other languages
English (en)
Other versions
JPWO2021044591A5 (ja
JPWO2021044591A1 (ja
Inventor
哲夫 井下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021044591A1 publication Critical patent/JPWO2021044591A1/ja
Publication of JPWO2021044591A5 publication Critical patent/JPWO2021044591A5/ja
Application granted granted Critical
Publication of JP7405145B2 publication Critical patent/JP7405145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、複数の学習済みモデルを用いて新たなモデルを生成する技術に関する。
大規模なネットワークを用いて学習した教師モデルを、小規模な生徒モデルに転移する技術が知られている。例えば、特許文献1は、生徒DNNモデルを、それよりも大きく精度が高い教師DNNモデルによって学習することにより、DNNクラシファイアを作成する手法を記載している。
特表2017-531255号公報
上記の手法のように教師モデルを用いて生徒モデルを生成する場合、教師モデルと生徒モデルの認識対象クラスが一致している必要がある。よって、既存の教師モデルと異なる新たなクラスを有する生徒モデルを生成する場合には、新たなクラスに対応するように教師モデルを再学習する必要がある。しかし、教師モデルは大規模ネットワークで構成されるため、教師モデルの再学習には時間がかかるという問題がある。
本発明の1つの目的は、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することにある。
上記の課題を解決するため、本発明の一つの観点では、モデル生成装置は、
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
を備える。
本発明の他の観点では、モデル生成方法は、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する。
本発明のさらに他の観点では、プログラムは、
学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させる。
本発明によれば、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することが可能となる。
本実施形態の基本原理を示す概念図である。 実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。 第1実施形態に係るモデル生成装置の機能構成を示すブロック図である。 教師モデル信頼度を生成する例を示す。 モデル生成処理のフローチャートである。 第2実施形態に係るモデル生成装置の機能構成を示すブロック図である。 第2実施形態の認識部による認識結果の例を示す。 第3実施形態に係るモデル生成装置の機能構成を示すブロック図である。
[原理説明]
まず、本発明の実施形態の基本原理について説明する。本実施形態では、学習済みの大規模ネットワークにより構成される教師モデルを用いて、蒸留により新たな生徒モデルを生成する。「蒸留」とは、学習済みの教師モデルから未学習の生徒モデルに知識を伝達する手法である。
図1は、本実施形態の基本原理を示す概念図である。いま、例えば交通監視システムに利用される画像認識処理のニーズに基づき、新たなモデルを生成するものとする。認識対象クラスは、「人」、「車」、「信号」であるものとする。この場合、交通監視の現場などに設置可能な比較的小規模のネットワークを用いて、生徒モデル(以下、「ターゲットモデル」とも呼ぶ。)が用意される。生徒モデルの認識対象クラス(以下、「ターゲットクラス」とも呼ぶ。)は、「人」、「車」、「信号」の3つとなる。
次に、予め大規模ネットワークを用いて学習済みの教師モデルA~Cが用意される。各教師モデルA~Cは、入力される画像データの認識を行う。ここで、生徒モデルのターゲットクラスが「人」、「車」、「信号」であるため、教師モデルA~Cとして、それぞれ「人」、「車」、「信号」を認識するモデルが用意される。具体的に、教師モデルAは、認識対象が「人」であり、画像データが「人」か「人でない」(以下、「Not」を用いて示す。)かを認識する。そして、教師モデルAは、認識結果として、クラス「人」及びクラス「Not人」のそれぞれについて認識の確からしさを示す信頼度を出力する。同様に、教師モデルBは、認識対象が「車」であり、画像データが「車」か「車でない」かを認識する。そして、教師モデルBは、認識結果として、クラス「車」及びクラス「Not車」のそれぞれについて認識の確からしさを示す信頼度を出力する。教師モデルCは、認識対象が「信号」であり、画像データが「信号」か「信号でない」かを認識する。そして、教師モデルCは、認識結果として、クラス「信号」及びクラス「Not信号」のそれぞれについて認識の確からしさを示す信頼度を出力する。
なお、教師モデルA~Cは、画像データがある認識対象(本例では「人」など)であることを示すクラス(以下「肯定クラス」とも呼ぶ。)と、画像データがその認識対象でないことを示すクラス(「Not」で示されるクラスであり、以下「否定クラス」とも呼ぶ。)との2つのクラスを認識する2クラス認識モデルである。このように、ある認識対象の有無を示す2つのクラスを、本明細書では「否定型2クラス」とも呼ぶ。
教師モデルA~C及び生徒モデルには、蒸留用の画像データが入力される。蒸留用の画像データとしては、生徒モデルが配置される場所で収集された画像データが使用される。教師モデルA~Cは、それぞれ入力された画像データの認識を行う。教師モデルAは、入力された画像データが「人」であるか否かの認識を行い、「人」である信頼度と「人でない」信頼度とを出力する。教師モデルBは、入力された画像データが「車」であるか否かの認識を行い、「車」である信頼度と「車でない」信頼度とを出力する。教師モデルCは、入力された画像データが「信号」であるか否かの認識を行い、「信号」である信頼度と「信号でない」信頼度とを出力する。
教師モデルA~Cによる認識結果は統合され、教師モデル信頼度が生成される。「教師モデル信頼度」は、入力された画像データに対して教師モデル側で総合的に生成された信頼度であり、教師モデルA~Cによる認識結果に基づいて生成される、ターゲットクラス毎の信頼度である。具体的には、ある画像データXについて、教師モデルAが出力した「人」である信頼度と、教師モデルBが出力した「車」である信頼度と、教師モデルCが出力した「信号」である信頼度を統合し、教師モデル信頼度が生成される。図1の例では、ある画像データXを教師モデルA~Cに入力したところ、教師モデルAは「人」である信頼度72%を出力し、教師モデルBは「車」である信頼度2%を出力し、教師モデルCは「信号」である信頼度1%を出力した。よって、これらを統合して生成される教師モデル信頼度は、車が人72%、車が2%、信号が1%という比率となる。なお、実際には、これらの比率は、合計が100%になるように正規化されて使用される。
一方、生徒モデルは、同一の画像データXの認識を行い、3つのターゲットクラス(人、車、信号)についてそれぞれ信頼度を出力する。ここで、生徒モデルは、初期値のパラメータが設定されている内部のネットワークにより画像データの認識を行うため、基本的にその認識結果は教師モデルA~Cとは異なる。そこで、生徒モデルは、教師モデルA~Cの出力に基づいて生成された教師モデル信頼度と同一の信頼度を出力するように学習が行われる。具体的には、生徒モデルが出力する各ターゲットクラスの信頼度が教師モデル信頼度と一致するように、生徒モデルを構成するネットワークの内部パラメータが修正される。図1の例では、画像データXが入力されたときに、生徒モデルの出力が「人」である信頼度が72%、「車」である信頼度が2%、「信号」である信頼度が1%の比率となるように、生徒モデルのパラメータが修正される。こうして、いわゆる蒸留という手法により、学習済みの教師モデルの出力をまねるように生徒モデルが構成される。
この手法では、教師モデルとして様々な認識対象について否定型2クラスのモデルを用意しておけば、あらゆる生徒モデルのターゲットクラスに適応することが可能となる。例えば、教師モデルとして、さらに認識対象クラス「自転車」、「歩道橋」などを用意しておけば、「人」、「車」、「信号」、「自転車」をターゲットクラスとする新たな生徒モデルや、「人」、「車」、「信号」、「歩道橋」をターゲットクラスとする新たな生徒モデルを生成することができる。よって、様々なニーズに応じて、高精度の教師モデルを組み合わせて新たなターゲットモデルを生成することが可能となる。
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図2は、第1実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。図示のように、モデル生成装置10は、インタフェース(IF)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
インタフェース12は、外部装置との通信を行う。具体的に、インタフェース12は、蒸留用の画像データを外部から入力したり、最終的に決定された生徒モデルのパラメータを外部装置へ出力したりする際に使用される。
プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、モデル生成装置10の全体を制御する。メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13により実行される各種のプログラムを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置10に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。モデル生成装置10がモデル生成処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
データベース16は、モデル生成処理において使用される、蒸留用の画像データを記憶する。なお、上記に加えて、モデル生成装置10は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。
(機能構成)
次に、モデル生成装置10の機能構成について説明する。図3は、モデル生成装置10の機能構成を示すブロック図である。モデル生成装置10は、大別して、教師モデル部20と、生徒モデル部30とを備える。教師モデル部20は、画像入力部21と、2クラス認識部22a~22cと、信頼度生成部23とを備える。また、生徒モデル部30は、生徒モデル認識部32と、ロス算出部33と、パラメータ修正部34とを備える。
画像入力部21には、蒸留用の画像データが入力される。蒸留用の画像データは、通常、生徒モデルを用いた画像認識装置が使用される現場で撮影されたものである。画像入力部21は、2クラス認識部22a~22cと、生徒モデル認識部32に同一の画像データを供給する。
2クラス認識部22a~22cは、予め学習済みの教師モデルを使用する認識部であり、それぞれが否定型2クラスの認識、即ち認識対象の有無の認識を行う。具体的に、2クラス認識部22aは画像データが「人」か「人でない」かの認識を行い、2クラス認識部22bは画像データが「車」か「車でない」かの認識を行い、2クラス認識部22cは画像データが「信号」か「信号でない」かの認識を行う。2クラス認識部22a~22cは、画像入力部21から供給された蒸留用の画像データに対して認識を行い、認識結果として、それぞれの肯定クラス及び否定クラスの信頼度を出力する。例えば、2クラス認識部22aは、肯定クラス「人」の信頼度と、否定クラス「人でない」の信頼度とを出力する。同様に、2クラス認識部22bは、肯定クラス「車」の信頼度と否定クラス「車でない」の信頼度を出力し、2クラス認識部22cは、肯定クラス「信号」の信頼度と否定クラス「信号でない」の信頼度を出力する。
信頼度生成部23は、2クラス認識部22a~22cから出力された認識結果に基づいて、教師モデル信頼度を生成する。具体的には、信頼度生成部23は、2クラス認識部22a~22cが出力した各肯定クラスの信頼度を統合する。いま、図4に示すように、2クラス認識部22aが出力した肯定クラス「人」の信頼度を「p」、2クラス認識部22bが出力した肯定クラス「車」の信頼度を「p」、2クラス認識部22cが出力した肯定クラス「信号」の信頼度を「p」とすると、信頼度生成部23は、クラス「人」の信頼度pperson、クラス「車」の信頼度pcar、クラス「信号」の信頼度psignalを以下のように算出する。
Figure 0007405145000001

なお、仮に図1の例と同様に、2クラス認識部22aが出力した肯定クラス「人」の信頼度が72%、2クラス認識部22bが出力した肯定クラス「車」の信頼度が2%、2クラス認識部22cが出力した肯定クラス「信号」の信頼度が1%であるとすると、クラス人の信頼度ppersonは以下のようになる。
Figure 0007405145000002
なお、実際には、信頼度生成部23は、こうして得られた各クラスの信頼度を、合計が100%となるように正規化して使用する。なお、上記の例を正規化すると、各クラスの信頼度Pperson、Pcar、Psignalは以下のようになる。
person=96%、Pcar=3%、Psignal=1%
信頼度生成部23は、生成した教師モデル信頼度をロス算出部33に供給する。
生徒モデル認識部32は、新たに作成するターゲットモデルに相当し、内部にディープニューラルネットワーク(DNN)などを備える。生徒モデル認識部32は、2クラス認識部22a~22cが認識したのと同一の画像データの認識を行い、認識結果をロス算出部33に出力する。本実施形態では、生徒モデル認識部32は「人」、「車」、「信号」をターゲットクラスとするため、認識結果として、クラス「人」の信頼度、クラス「車」の信頼度、クラス「信号」の信頼度を出力する。生徒モデル認識部32が出力するこれらの信頼度を「生徒モデル信頼度」とも呼ぶ。なお、生徒モデル認識部32は、これら3つのクラスの信頼度の合計が100%となるように信頼度を出力する。
ロス算出部33は、信頼度生成部23から出力された教師モデル信頼度と、生徒モデル認識部32から出力された生徒モデル信頼度とを比較し、ロス(差分)を算出してパラメータ修正部34に供給する。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、最適には0になるように、生徒モデル認識部32の内部ネットワークのパラメータを修正する。教師モデル信頼度と生徒モデル信頼度のロスが0になるということは、同一の画像データに対する教師モデル部20の認識結果(信頼度)と、生徒モデル認識部32の認識結果(信頼度)とが一致するということである。こうして、生徒モデル認識部32に教師モデルの知識を伝達し、高精度なターゲットモデルを生成することが可能となる。
(モデル生成処理)
次に、モデル生成処理について説明する。図4は、モデル生成装置10によるモデル生成処理のフローチャートである。この処理は、図2に示すプロセッサ13が予め用意されたプログラムを実行することにより実現される。
まず、画像入力部21から2クラス認識部22a~22c及び生徒モデル認識部32に蒸留用の画像データが入力される(ステップS11)。2クラス認識部22a~22cは、画像データの認識を行い、それぞれ信頼度を算出して信頼度生成部23に出力する(ステップS12)。信頼度生成部23は、2クラス認識部22a~22cから入力された信頼度に基づいて、教師モデル信頼度を生成する(ステップS13)。
一方、生徒モデル認識部32は、同一の画像データの認識を行い(ステップS14)、認識結果として生徒モデル信頼度を生成する(ステップS15)。ロス算出部33は、信頼度算出部23が生成した教師モデル信頼度と、生徒モデル認識部32が生成した生徒モデル信頼度のロスを算出する(ステップS16)。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、生徒モデル認識部の内部パラメータを修正する(ステップS17)。
次に、モデル生成装置10は、所定の終了条件が具備されたか否かを判定する(ステップS18)。モデル生成装置10は、終了条件が具備されるまでステップS11~S17を繰返し、終了条件が具備されると(ステップS18:Yes)、処理を終了する。なお、「所定の終了条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。モデル生成装置10は、予め用意された全ての蒸留用の画像データについて上記のモデル生成処理を行う。こうして生成された生徒モデル認識部32は、学習済みの認識部として画像認識装置に使用される。
(変形例)
上記の実施形態では、信頼度生成部23は、上記の式(1)~(3)に示すように、2クラス認識部22a~22cが出力した信頼度の値そのものを用いて教師モデル信頼度を生成している。その代わりに、信頼度生成部23は、2クラス認識部22a~22cが出力した信頼度の値に対して重み付けを行って教師モデル信頼度を生成してもよい。例えば、2クラス認識部22a~22cが出力した信頼度に対する重みを「α」、「β」、「γ」とすると、信頼度生成部23は、クラス「人」の信頼度pperson、クラス「車」の信頼度pcar、クラス「信号」の信頼度psignalを以下のように算出する。
Figure 0007405145000003

この場合、2クラス認識部22a~22cが出力した信頼度のうち、特に小さい値の信頼度に対しては、大きな重み付けを行うことが好ましい。例えば、各2クラス認識部22a~22cが出力した信頼度に差がある場合には、信頼度の小さい「車(2%)」や「信号(1%)」の信頼度に対して、信頼度の大きい「人(72%)」よりも大きい重みを与えることが好ましい。上記の例では、重み「β」、「γ」を重み「α」よりも大きい値とする。これにより、教師モデルから生徒モデル認識部32に伝達される認識のための知識が特定のクラスに偏りすぎることを防止でき、様々な認識対象を適切に認識可能なターゲットモデルを生成することが可能となる。
[第2実施形態]
次に、本発明の第2実施形態について説明する。上述の第1実施形態では、教師モデル部20に使用される2クラス認識部22a~22cは、それぞれ1つの認識対象の有無、即ち、1つの認識対象について肯定クラスと否定クラスを認識するものであった。これに対し、第2実施形態では、複数の認識対象を認識する認識部を用いる点が第1実施形態と異なる。なお、第2実施形態に係るモデル生成装置のハードウェア構成は、図2に示す第1実施形態のものと同様である。
図6は、第2実施形態に係るモデル生成装置10xの機能構成を示すブロック図である。図3と比較すると理解されるように、モデル生成装置10xは、2クラス認識部22a~22cの代わりに認識部22e~22gを有する点が第1実施形態のモデル生成装置10と異なるが、それ以外はモデル生成装置10と同様であり、同様に動作する。
例えば、図7に示すように、認識部22eは「人」と「車」を認識対象クラスとし、認識部22fは「人」と「自転車」を認識対象クラスとし、認識部22gは「信号」と「建物」を認識対象クラスとする。一方、生徒モデル認識部32は、第1実施形態と同様に、「人」、「車」、「信号」を認識対象クラスとするものとする。この場合、信頼度算出部23は、認識部22eから出力される「人」及び「車」の信頼度と、認識部22fから出力される「車」の信頼度と、認識部22gから出力される「信号」の信頼度を統合して、教師モデル信頼度を生成する。そして、パラメータ修正部34は、教師モデル信頼度と生徒モデル信頼度とが一致するように、生徒モデル認識部32のパラメータを調整する。
このように、教師モデル部20で使用される認識部が複数の認識対象クラスを有するモデルである場合でも、第1実施形態と同様に、教師モデルの知識を利用してターゲットモデルを生成することができる。
[第3実施形態]
次に、本発明の第3実施形態について説明する。図8は、第3実施形態によるモデル生成装置40の機能構成を示す。なお、モデル生成装置40は、図2に示すハードウェア構成により実現される。
図示のように、モデル生成装置40は、複数の認識部41と、信頼度生成部42と、ターゲットモデル認識部43と、パラメータ調整部44とを備える。複数の認識部41の各々は、学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する。信頼度生成部42は、複数の認識部41が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する。なお、「ターゲットモデル」とは、モデル生成装置40が生成しようとするモデルであり、「ターゲットクラス」とは、ターゲットモデルの認識対象クラスである。
ターゲットモデル認識部43は、ターゲットモデルを用いて、複数の認識部41が認識したのと同一の画像データを認識し、ターゲットクラス毎の信頼度を出力する。パラメータ調整部44は、信頼度生成部42が生成したターゲットクラス毎の信頼度と、ターゲットモデル認識部43が出力したターゲットクラス毎の信頼度とが一致するように、ターゲットモデルのパラメータを調整する。こうして、学習済みの複数の認識部41を用いて、ターゲットモデルを生成することができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
を備えるモデル生成装置。
(付記2)
前記信頼度生成部は、前記複数の認識部が出力したクラス毎の信頼度のうち、前記ターゲットクラスに含まれるクラスの信頼度を統合して、前記ターゲットクラス毎の信頼度を生成する付記1に記載のモデル生成装置。
(付記3)
前記複数の認識部の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識部である付記1又は2に記載のモデル生成装置。
(付記4)
前記信頼度生成部は、前記複数の認識部の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する付記3又は4に記載のモデル生成装置。
(付記5)
前記信頼度生成部は、前記複数の認識部が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する付記4に記載のモデル生成装置。
(付記6)
前記信頼度生成部は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする付記5に記載のモデル生成装置。
(付記7)
前記複数の認識部の各々は、異なる認識対象を認識する付記3乃至6のいずれか一項に記載のモデル生成装置。
(付記8)
前記複数の認識部の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する付記7に記載のモデル生成装置。
(付記9)
前記複数の認識部の各々は、異なる複数の認識対象の認識を行う付記1又は2に記載のモデル生成装置。
(付記10)
前記複数の認識部の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む付記9に記載のモデル生成装置。
(付記11)
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
(付記12)
学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録した記録媒体。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10、10x、40 モデル生成装置
22a~22c 2クラス認識部
22e~22g 認識部
23 信頼度生成部
32 生徒モデル認識部
33 ロス算出部
34 パラメータ修正部

Claims (11)

  1. 学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識手段と、
    前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の信頼度を生成する信頼度生成手段と、
    ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識手段と、
    前記信頼度生成手段が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識手段が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整手段と、
    を備えるモデル生成装置。
  2. 前記複数の認識手段の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識手段である請求項1に記載のモデル生成装置。
  3. 前記信頼度生成手段は、前記複数の認識手段の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する請求項2に記載のモデル生成装置。
  4. 前記信頼度生成手段は、前記複数の認識手段が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する請求項3に記載のモデル生成装置。
  5. 前記信頼度生成手段は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする請求項4に記載のモデル生成装置。
  6. 前記複数の認識手段の各々は、異なる認識対象を認識する請求項2乃至5のいずれか一項に記載のモデル生成装置。
  7. 前記複数の認識手段の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する請求項6に記載のモデル生成装置。
  8. 前記複数の認識手段の各々は、異なる複数の認識対象の認識を行う請求項1に記載のモデル生成装置。
  9. 前記複数の認識手段の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む請求項8に記載のモデル生成装置。
  10. 学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
    前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
    ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の第2の信頼度を出力し、
    前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
  11. 学習済みモデルを用いる複数の認識手段により画像データを認識し、前記複数の認識手段の各々が認識対象とするクラス毎に信頼度を出力し、
    前記複数の認識手段が出力したクラス毎の信頼度のうち、ターゲットクラスに含まれるクラスの信頼度を統合して、複数のターゲットクラス毎の第1の信頼度を生成し、
    ターゲットモデルを用いて前記画像データを認識し前記ターゲットクラス毎の第2の信頼度を出力し、
    前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラム。
JP2021543900A 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、プログラム Active JP7405145B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/035014 WO2021044591A1 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021044591A1 JPWO2021044591A1 (ja) 2021-03-11
JPWO2021044591A5 JPWO2021044591A5 (ja) 2022-04-01
JP7405145B2 true JP7405145B2 (ja) 2023-12-26

Family

ID=74853291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543900A Active JP7405145B2 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20220301293A1 (ja)
JP (1) JP7405145B2 (ja)
WO (1) WO2021044591A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117099098A (zh) * 2021-03-26 2023-11-21 三菱电机株式会社 重新学习系统和重新学习方法
CN115456167B (zh) 2022-08-30 2024-03-12 北京百度网讯科技有限公司 轻量级模型训练方法、图像处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531255A (ja) 2014-09-12 2017-10-19 マイクロソフト コーポレーションMicrosoft Corporation 出力分布による生徒dnnの学習
WO2018126213A1 (en) 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
US20190034764A1 (en) 2017-07-31 2019-01-31 Samsung Electronics Co., Ltd. Method and apparatus for generating training data to train student model using teacher model
CN109783824A (zh) 2018-12-17 2019-05-21 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
US20190205748A1 (en) 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
JP2022524662A (ja) 2019-03-22 2022-05-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US10417501B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531255A (ja) 2014-09-12 2017-10-19 マイクロソフト コーポレーションMicrosoft Corporation 出力分布による生徒dnnの学習
WO2018126213A1 (en) 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
US20190034764A1 (en) 2017-07-31 2019-01-31 Samsung Electronics Co., Ltd. Method and apparatus for generating training data to train student model using teacher model
US20190205748A1 (en) 2018-01-02 2019-07-04 International Business Machines Corporation Soft label generation for knowledge distillation
CN109783824A (zh) 2018-12-17 2019-05-21 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
JP2022524662A (ja) 2019-03-22 2022-05-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jayakorn Vongkulbhisal, et al.,"Unifying Heterogeneous Classifiers with Distillation",Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2019年06月20日,Pages 3170-3179,ISBN: 978-1-7281-3293-8, <DOI: 10.1109/CVPR.2019.00329>.
Yevgen Chebotar, et al.,"Distilling knowledge from ensembles of neural networks for speech recognition",Proceedings of Interspeech 2016,[online], ISCA,2016年,Pages 3439-3443,[令和5年1月10日検索], インターネット, <URL: https://www.isca-speech.org/archive/interspeech_2016/chebotar16_interspeech.html> and <URL: https://www.isca-speech.org/archive/pdfs/interspeech_2016/chebotar16_interspeech.pdf>,<DOI: 10.21437/Interspeech.2016-1190>.

Also Published As

Publication number Publication date
WO2021044591A1 (ja) 2021-03-11
US20220301293A1 (en) 2022-09-22
JPWO2021044591A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
KR102644947B1 (ko) 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US10990852B1 (en) Method and apparatus for training model for object classification and detection
JP6708847B1 (ja) 機械学習装置及び方法
KR20190013011A (ko) 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US11436497B2 (en) System and method for optimization of deep learning model
CN116635866A (zh) 用于挖掘少数类数据样本以训练神经网络的方法和系统
CN110537184A (zh) 利用生成式对抗网络的半监督回归
JP7405145B2 (ja) モデル生成装置、モデル生成方法、及び、プログラム
EP3646252A1 (en) Selective training for decorrelation of errors
CN115618941A (zh) 训练精炼的机器学习模型
AU2015226983A1 (en) Neural network and method of neural network training
JP7384217B2 (ja) 学習装置、学習方法、及び、プログラム
KR102570070B1 (ko) 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치
WO2021132099A1 (ja) 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
JP2018194974A (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
JP2015210747A (ja) 階層型ニューラルネットワークの学習システム及び方法
CN109508658A (zh) 一种多生物特征联合识别方法及装置
KR20210060146A (ko) 딥 뉴럴 네트워크 모델을 이용한 데이터 처리 방법 및 장치, 딥 뉴럴 네트워크 모델을 학습시키는 학습 방법 및 장치
JP2023044336A (ja) 学習装置、学習方法およびプログラム
JP2021093144A (ja) センサ特化イメージ認識装置及び方法
JP2020052935A (ja) 学習済みモデルを生成する方法、データを分類する方法、コンピュータおよびプログラム
KR20160106063A (ko) 패턴 인식 시스템 및 방법
WO2023127062A1 (ja) データ生成方法,機械学習方法,情報処理装置,データ生成プログラムおよび機械学習プログラム
KR20200094354A (ko) 버스트 스파이크 기반한 스파이킹 신경망 생성 방법 및 스파이킹 신경망 기반 추론 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R151 Written notification of patent or utility model registration

Ref document number: 7405145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151