JP7006401B2 - 学習プログラム、学習方法および学習装置 - Google Patents

学習プログラム、学習方法および学習装置 Download PDF

Info

Publication number
JP7006401B2
JP7006401B2 JP2018045890A JP2018045890A JP7006401B2 JP 7006401 B2 JP7006401 B2 JP 7006401B2 JP 2018045890 A JP2018045890 A JP 2018045890A JP 2018045890 A JP2018045890 A JP 2018045890A JP 7006401 B2 JP7006401 B2 JP 7006401B2
Authority
JP
Japan
Prior art keywords
learning
label
feature
attribute
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018045890A
Other languages
English (en)
Other versions
JP2019159824A (ja
Inventor
利生 遠藤
健人 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018045890A priority Critical patent/JP7006401B2/ja
Priority to US16/287,685 priority patent/US10891516B2/en
Publication of JP2019159824A publication Critical patent/JP2019159824A/ja
Application granted granted Critical
Publication of JP7006401B2 publication Critical patent/JP7006401B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習プログラム、学習方法および学習装置に関する。
機械学習による分類や回帰を行う際、あらかじめ用意した訓練データで学習を行い、推定対象であるテストデータの推定を行うことが一般的である。例えば、車が写った写真などの画像データとその画像データに写っている車の車種との対を含む訓練データから特徴量を抽出して学習を行い、学習結果を用いて新たな写真を認識する。近年では、認識に用いる特徴量を自動的に設計する深層学習(DL:ディープラーニング)が知られている。
特開2016-219004号公報 特開2015-176175号公報 特開2011-8634号公報
しかしながら、上記深層学習では、特徴設計が自動的に行われるので、訓練データ以外のデータでは、認識精度である汎化能力が低下する場合がある。具体的には、訓練データには複数の属性のラベルが付与されているのが一般的であるが、深層学習では、学習に影響を与えたくない学習対象のラベルを指定することができないので、学習に影響を与えたくないラベルに寄与する特徴による学習が行われることがある。このような学習結果にテストデータを適用した場合、学習対象のラベルに寄与する特徴を用いての認識が実行されないので、汎化能力が低下する。
例えば、車写真にラベルとして、車種(乗用車またはトラック)とメーカ名(T社またはH社)が付与された訓練データを用いて学習する場合に、学習対象のラベルである車種ではなく、メーカ名で学習されることがある。この場合、車の外形などで認識精度を向上させたいが、メーカのエンブレムの位置での認識精度が学習される。したがって、エンブレムがない車写真がテストデータである場合、この学習結果を用いて認識を行っても、正しい認識結果が得られない。
一つの側面では、汎化能力の低下を抑制することができる学習プログラム、学習方法および学習装置を提供することを目的とする。
第1の案では、学習プログラムは、コンピュータに、適合ラベルおよび非適合ラベルの各データ項目を有する入力データから生成される特徴量を入力して第1の推定結果を出力する第1の教師有学習器に対し、前記第1の推定結果と前記適合ラベルとが一致するように学習させる処理を実行させる。学習プログラムは、コンピュータに、前記特徴量を入力して第2の推定結果を出力する第2の教師有学習器に対し、前記第2の推定結果と前記非適合ラベルとが一致するように学習させる処理を実行させる。学習プログラムは、コンピュータに、前記入力データから前記特徴量を生成する特徴抽出器に対し、前記適合ラベルの認識を促進させ、かつ、前記非適合ラベルの認識を抑制する学習を実行させる処理を実行させる。
一実施形態によれば、汎化能力の低下を抑制することができる。
図1は、実施例1にかかる学習装置を説明する図である。 図2は、実施例1にかかる学習装置の機能構成を示す機能ブロック図である。 図3は、訓練データDBに記憶される訓練データの例を示す図である。 図4は、学習結果DBに記憶される学習結果の例を示す図である。 図5は、学習処理での重みの変化を説明する図である。 図6は、テストデータDBに記憶されるテストデータの例を示す図である。 図7は、認識処理時の特徴抽出結果の例を示す図である。 図8は、認識結果の例を示す図である。 図9は、学習処理の流れを示すフローチャートである。 図10は、認識処理の流れを示すフローチャートである。 図11は、従来の認識結果を説明する図である。 図12は、実施例1による認識結果を説明する図である。 図13は、実施例2にかかる訓練データを説明する図である。 図14は、実施例2にかかる学習の重みの変化を説明する図である。 図15は、実施例2にかかる認識結果を説明する図である。 図16は、学習結果の流用を説明する図である。 図17は、学習結果の流用時の属性学習を説明する図である。 図18は、ハードウェア構成例を説明する図である。
以下に、本願の開示する学習プログラム、学習方法および学習装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[学習装置の説明]
図1は、実施例1にかかる学習装置を説明する図である。図1に示す学習装置1は、特徴学習器と関心属性学習器と擾乱属性学習器とを有する情報処理装置の一例であり、訓練データを用いて各学習器を学習させる。各学習器には、例えばニューラルネットワーク(NN)で構成し、勾配法など様々な学習手法を採用することができる。また、学習の例として画像を例示して説明するが、あくまで一例であり、音声データなどにも適用することができ、学習内容や学習対象を限定するものではない。
訓練データは、ラベルとして複数の属性が与えられた教師有のデータ群であり、「画像データ、関心属性ラベル、擾乱属性ラベル」から構成されるデータを複数有する。ここで、画像データは、車の写真などである。関心属性ラベルは、ユーザが認識結果に影響を与えたい、学習対象の属性のラベルであり、適合ラベルの一例である。擾乱属性ラベルは、ユーザが認識結果に影響を与えたくない、学習対象外の属性のラベルであり、非適合ラベルの一例である。図1では、訓練データ「画像データ、関心属性ラベル、擾乱属性ラベル」として「x、y1、y2」を用いて説明する。なお、訓練データが有する複数のラベルのうち、いずれのラベルを関心属性ラベルにするのかは、ユーザが指定できる。
特徴学習器は、訓練データの画像データ(x)を入力して、特徴量(z)を生成する特徴生成器の一例である。例えば、特徴学習器は、学習対象が画像データの場合は、画像データ内のエッジ、コントラスト、画像内の車の外形などを特徴として生成する。
関心属性学習器は、ラベルつきの教師有データに対し、分類や回帰などの学習を実行する教師有学習器の一例である。例えば、関心属性学習器は、入力(x)から生成された特徴量(z)を入力として、予測値である推定ラベル(y´)を出力する。
擾乱属性学習器は、ラベルつきの教師有データに対し、分類や回帰などの学習を実行する教師有学習器の一例である。例えば、擾乱属性学習器は、入力(x)から生成された特徴量(z)を入力として、予測値である推定ラベル(y´´)を出力する。
このような学習装置1は、関心属性学習器に対して、推定ラベル(y´)と関心属性ラベル(y1)とが一致するように学習させる。また、学習装置1は、擾乱属性学習器に対して、推定ラベル(y´´)と擾乱属性ラベルと(y2)が一致するように学習させる。そして、学習装置1は、特徴学習器に対して、関心属性ラベルの認識を促進させ、かつ、擾乱属性ラベルの認識を抑制する学習を実行させる。
つまり、学習装置1は、訓練データのラベルに複数の属性が与えられている場合でも、擾乱属性ラベルに依存しない特徴(特徴量)の抽出を学習し、関心属性ラベルに対する認識処理の精度を向上させる。したがって、学習装置1は、学習器の特徴設計を意識的に制御することができるので、汎化能力の低下を抑制することができる。
[機能構成]
図2は、実施例1にかかる学習装置1の機能構成を示す機能ブロック図である。図2に示すように、学習装置1は、学習部10と認識部20を有する。なお、図2に示す各DBは、メモリやハードディスクなどの記憶装置に記憶される。また、図2に示す各種処理部は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
(学習部の構成)
学習部10は、訓練データDB11、学習結果DB12、訓練データ入力部13、特徴学習部14、関心属性学習部15、擾乱属性学習部16を有する。
訓練データDB11は、学習対象の訓練データを記憶するデータベースである。例えば、訓練データDB11は、画像データと複数のラベルとから構成される、複数のラベル付きデータ群を記憶する。図3は、訓練データDB11に記憶される訓練データの例を示す図である。図3に示すように、訓練データDB11は、「属性数、関心属性、擾乱属性」を対応付けたデータと、「データID、関心属性ラベル、擾乱属性ラベル、データ本体」を対応付けたデータとを記憶する。
「属性数」は、訓練データが有するラベルの数である。「関心属性」は、訓練データに付加される複数のラベルのうち、ユーザが認識結果に影響を与えたい属性のラベルであり、ユーザが指定することができる。「擾乱属性」は、訓練データに付加される複数のラベルのうち、ユーザが認識結果に影響を与えたくない属性のラベルであり、ユーザが指定することができる。図3の例では、属性数が「1,1」であることから、関心属性が1つ、擾乱属性が1つであることを示し、関心属性が「車種」かつ擾乱属性が「メーカ名」であることが指定されている。
また、「データID」は、訓練データを識別する識別子である。「関心属性ラベル」は、関心属性として指定されたラベルであり、「擾乱属性ラベル」は、擾乱属性として指定されたラベルである。「データ本体」は、画像データのファイル名等である。図3の例では、データID「TR1」の訓練データは、ファイル名が「I1」の画像ファイル(画像データ)であり、関心属性ラベル「乗用車」と擾乱属性ラベル「T社」が付与されている。なお、画像ファイルそのものは、ハードディスクなどに記憶することもできる。
学習結果DB12は、学習結果を記憶するデータベースである。具体的には、学習結果DB12は、学習されたニューラルネットワークのシナプスの重みなどを記憶する。図4は、学習結果DB12に記憶される学習結果の例を示す図である。図4に示すように、学習結果DB12は、「特徴学習重み、関心属性学習重み」を記憶する。「特徴学習重み」は、特徴抽出器に設定する、学習済みの重み情報であり、「関心属性学習重み」は、関心属性認識器に設定する、学習済みの重み情報である。
図4の例では、特徴学習重みとして「W1N」が学習され、関心属性学習重みとして「W2N」が学習されたことを示す。なお、学習結果DB12は、学習結果に限らず、各学習の学習過程を記憶することもできる。
訓練データ入力部13は、訓練データDB11から訓練データを順次読み込んで、特徴学習部14に入力する処理部である。例えば、訓練データ入力部13は、データ本体「I1」をハードディスクなどから取得して、特徴学習部14に入力する。なお、訓練データ入力部13は、学習が終了するまで、訓練データの入力を繰り返す。
特徴学習部14は、訓練データから特徴量を抽出して関心属性学習部15と擾乱属性学習部16とに出力する処理部であり、機械学習によって特徴量の抽出を学習する学習器である。例えば、特徴学習部14は、ニューラルネットワーク(NN)などを用いて、訓練データ入力部13から入力された画像データ「I1」から特徴量「z」を抽出して、関心属性学習部15と擾乱属性学習部16とに出力する。
また、特徴学習部14は、訓練データに対する関心属性の認識精度が上がり、擾乱属性の認識精度が下がるように学習する。つまり、特徴学習部14は、特徴量を抽出するNNに対して、関心属性ラベルの認識を促進させ、かつ、擾乱属性ラベルの認識を抑制する学習を実行させる。
例えば、特徴学習部14は、関心属性学習部15の出力である推定ラベル(y´)と、推定ラベル(y´)の生成に使用された訓練データの関心属性ラベルとの誤差(A)が小さくなるように、NNの重みを学習する。同時に、特徴学習部14は、擾乱属性学習部16の出力である推定ラベル(y´´)と、推定ラベル(y´´)の生成に使用された訓練データの擾乱属性ラベルとの誤差(B)が大きくなるように、NNの重みを学習する。
より詳細には、特徴学習部14は、最小二乗法による二乗誤差によって誤差(A)を算出し、この誤差(A)が閾値以下となるまで学習を繰り返す。同様に、特徴学習部14は、最小二乗法による二乗誤差によって誤差(B)を算出し、この誤差(B)が閾値以上となるまで学習を繰り返す。なお、終了条件は、閾値に限らず、予め定めた回数であってもよい。また、二乗誤差に限らず、クロスエントロピーなどを用いることもできる。
関心属性学習部15は、特徴量から関心属性の推定ラベルを出力する処理部であり、機械学習によって、関心属性の推定ラベルの推定を学習する学習器である。例えば、関心属性学習部15は、ニューラルネットワーク(NN)などを用いて、特徴学習部14から入力された特徴「z」から推定ラベル(y´)を推定する。
また、関心属性学習部15は、訓練データに対する関心属性の認識精度が上がるように学習する。例えば、関心属性学習部15は、特徴量(z)を用いて推定した推定ラベル(y´)と、推定ラベル(y´)の推定に使用された訓練データのデータ本体に対応する関心属性ラベルとの誤差(A)が小さくなるように、NNの重みを学習する。誤差(A)については、特徴学習部14と同様、二乗誤差などを用いることができる。また、終了条件も特徴学習部14と同様の手法を採用することができる。
擾乱属性学習部16は、特徴量から擾乱属性の推定ラベルを出力する処理部であり、機械学習によって、擾乱属性の推定ラベルの推定を学習する学習器である。例えば、擾乱属性学習部16は、ニューラルネットワーク(NN)などを用いて、特徴学習部14から入力されたが特徴量「z」から推定ラベル(y´´)を推定する。
また、擾乱属性学習部16は、訓練データに対する擾乱属性の認識精度が上がるように学習する。例えば、擾乱属性学習部16は、特徴量(z)を用いて認識した推定ラベル(y´´)と、推定ラベル(y´´)の推定に使用された訓練データのデータ本体に対応する関心属性ラベルとの誤差(B)が小さくなるように、NNの重みを学習する。誤差(B)については、特徴学習部14と同様、二乗誤差などを用いることができる。また、終了条件も特徴学習部14と同様の手法を採用することができる。
そして、特徴学習部14、関心属性学習部15、擾乱属性学習部16の各学習器は、閾値との比較による評価基準を満たす場合に、学習を終了する。このとき、特徴学習部14は、学習終了時の重みを特徴学習重みとして学習結果DB12に格納し、関心属性学習部15は、学習終了時の重みを関心属性学習重みとして学習結果DB12に格納する。なお、各学習器は、いずれかの学習器が評価基準を満たしたときに学習を終了してもよく、すべての学習器が評価基準を満たしたときに学習を終了してもよい。
ここで、学習処理での重みの変化について説明する。図5は、学習処理での重みの変化を説明する図である。図5に示すように、「特徴学習重み、関心属性学習重み、擾乱属性学習重み」の初期値として「W10、W20、W30」が設定されている状態で、1つ目の訓練データを用いての学習が終了すると、「W10、W20、W30」のうち関心属性学習重みが更新されて「W10、W21、W30」となる。続いて、「W10、W21、W30」のうち擾乱属性学習重みが更新されて「W10、W21、W31」となる。さらに、「W10、W21、W31」のうち特徴学習重みが更新されて「W11、W21、W31」となる。
このように、訓練データを用いて随時学習し、評価基準を満たしたときの重みが「W1N、W2N、W3N」とすると、「特徴学習重み、関心属性学習重み」=「W1N、W2N」を学習結果DB12に格納する。なお、ここでは、1つの訓練データで各学習器の学習重みを更新する例を説明したが、これに限定されず、1つの訓練データで1つの学習器の学習重みを更新することもできる。
(認識部の構成)
認識部20は、テストデータDB21、テストデータ入力部22、特徴抽出部23、関心属性認識部24、出力部25を有する。
テストデータDB21は、推定対象のデータを記憶するデータベースである。つまり、テストデータDB21は、ラベルが付加されていない、何の画像かわからない画像データを記憶する。図6は、テストデータDB21に記憶されるテストデータの例を示す図である。
図6に示すように、テストデータDB21は、「データID、データ本体」を対応付けて記憶する。「データID」は、テストデータを識別する識別子であり、「データ本体」は、画像データのファイル名等である。図6の例では、データID「TT1」のテストデータは、ファイル名が「I1´」の画像ファイルであり、データID「TT2」のテストデータは、ファイル名が「I2´」の画像ファイルであることを示す。なお、画像ファイルそのものは、ハードディスクなどに記憶することもできる。
テストデータ入力部22は、テストデータDB21からテストデータを順次読み込んで、特徴抽出部23に入力する処理部である。例えば、テストデータ入力部22は、データ本体「I1´」をハードディスクなどから取得して特徴抽出部23に入力し、データ本体「I1´」の認識が終了すると、データ本体「I2´」をハードディスクなどから取得して特徴抽出部23に入力する。
特徴抽出部23は、特徴量の抽出に関して学習された重みを適用したNNを用いる特徴抽出器を実行して、テストデータから特徴量を抽出する処理部である。具体的には、特徴抽出部23は、学習結果DB12から「特徴学習重み(W1N)」を読み出し、「特徴学習重み(W1N)」をシナプスの重みとして設定したNNを構成する。そして、特徴抽出部23は、学習されたシナプスの重みにしたがって、特徴量を抽出する。
図7は、認識処理時の特徴抽出結果の例を示す図である。図7に示すように、特徴抽出部23は、データID「TT1」のデータ本体「I1´」が入力された場合に、特徴量「Ex1」を抽出して、関心属性認識部24に出力する。また、特徴抽出部23は、データID「TT2」のデータ本体「I2´」が入力された場合に、特徴量「Ex2」を抽出して、関心属性認識部24に出力する。
関心属性認識部24は、関心属性ラベルの推定に関して学習された重みを適用したNNを用いる関心属性認識器を実行し、テストデータの特徴(特徴量)からラベルを認識する処理部である。具体的には、関心属性認識部24は、学習結果DB12から「関心属性学習重み(W2N)」を読み出し、「関心属性重み(W2N)」をシナプスの重みとして設定したNNを構成する。そして、関心属性認識部24は、学習されたシナプスの重みにしたがって、ラベルの認識を実行する。
図8は、認識結果の例を示す図である。図8に示すように、関心属性認識部24は、データID「TT1」のデータ本体「I1´」の特徴量「Ex1」が入力された場合に、関心属性ラベル「乗用車」を認識して、出力部25に出力する。また、関心属性認識部24は、データID「TT2」のデータ本体「I2´」の特徴量「Ex2」が入力された場合に、関心属性ラベル「トラック」を認識して、出力部25に出力する。
出力部25は、関心属性認識部24の認識結果を、ディスプレイなどの表示部に表示したり、ユーザ端末に送信したりする処理部である。例えば、出力部25は、データID「TT1」のデータ本体「I1´」の認識結果を「乗用車」と出力し、データID「TT2」のデータ本体「I2´」の認識結果を「トラック」と出力する。
[学習処理の流れ]
図9は、学習処理の流れを示すフローチャートである。図9に示すように、学習部10は、指示を受け付けて学習を開始すると(S101:Yes)、各学習器のシナプスの重みをランダム値に設定して、各学習器を初期化する(S102)。
続いて、学習部10は、訓練データを読み込み(S103)、特徴学習部14によって特徴量を抽出する(S104)。その後、学習部10は、関心属性学習部15によって、特徴量から関心属性ラベルを推定し(S105)、擾乱属性学習部16によって、特徴量から擾乱属性ラベルを推定する(S106)。
そして、学習部10は、各学習器を学習する(S107)。すなわち、学習部10の特徴学習部14は、関心属性学習部15の出力である推定ラベル(y´)と、訓練データの関心属性ラベルとの誤差(A)が小さくなるように、NNの重みを学習する。同時に、特徴学習部14は、擾乱属性学習部16の出力である推定ラベル(y´´)と、訓練データの擾乱属性ラベルとの誤差(B)が大きくなるように、NNの重みを学習する。また、関心属性学習部15は、上記誤差(A)が小さくなるようにNNの重みを学習し、擾乱属性学習部16は、上記誤差(B)が小さくなるようにNNの重みを学習する。
その後、学習部10は、評価基準を満たす場合は(S108:Yes)、学習結果を学習結果DB12に出力する(S109)。一方、学習部10は、評価基準を満たさない場合は(S108:No)、S103以降を繰り返す。
[認識処理の流れ]
図10は、認識処理の流れを示すフローチャートである。図10に示すように、認識部20は、指示を受け付けて認識を開始すると(S201:Yes)、学習結果DB12から学習結果を読み込む(S202)。
続いて、認識部20は、学習結果の各重みをシナプスに設定した特徴抽出器と関心属性認識器を設定し(S203)、テストデータを読み込む(S204)。
そして、認識部20は、特徴抽出器を実行する特徴抽出部23によって、テストデータから特徴量を抽出し(S205)、関心属性認識器を実行する関心属性認識部24によって、特徴量から関心属性を認識する(S206)。その後、認識部20は、出力部25によって、認識結果を出力する(S207)。
[認識結果の比較例および効果]
次に、従来の学習結果と実施例1の学習結果との比較例を説明する。図11は、従来の認識結果を説明する図であり、図12は、実施例1による認識結果を説明する図である。
ここでは、訓練データ「画像、車種(ラベル)、メーカ名(ラベル)」として、(1)「T社のエンブレムが前方に付いている乗用車の画像、乗用車、T社」、(2)「T社のエンブレムが後方に付いているトラックの画像、トラック、T社」、(3)「H社のエンブレムが前方に付いている乗用車の画像、乗用車、H社」、(4)「H社のエンブレムが後方に付いているトラックの画像、トラック、H社」を用いることとする。また、関心属性として車種、擾乱属性としてメーカ名をユーザが指定するとする。
図11に示す従来の学習では、特徴学習器などの学習器に対して、関心属性や擾乱属性の指定を行うことができない。このため、学習器は、メーカのエンブレムの位置で乗用車とトラックとを識別するように学習することがある。例えば、学習器は、(1)と(3)の訓練データに対しては、エンブレムが前方についているので乗用車と認識するように学習し、(2)と(4)の訓練データに対しては、エンブレムが後方についているのでトラックと認識するように学習する。
このため、学習結果を用いた認識器は、(5)「N社のエンブレムが後方についている乗用車の画像」がテストデータとして入力された場合、エンブレムが後方についていることから、「トラック」と誤認識する。
一方で、実施例1にかかる学習装置1は、図12に示すように、特徴学習器などの学習器に対して、関心属性や擾乱属性の指定を行うことができる。このため、学習装置1の学習器は、乗用車とトラックの認識を、擾乱属性であるメーカ名ではなく、車の外形で識別するように学習することができる。例えば、学習装置1の学習器は、(1)と(3)の訓練データに対しては、エンブレムの位置に関わらず、車の後方が水平(荷台)でないことから、乗用車と認識するように学習し、(2)と(4)の訓練データに対しては、エンブレムの位置に関わらず、車の後方が水平(荷台)であることから、トラックと認識するように学習する。
このため、学習結果を用いた認識器は、(5)「N社のエンブレムが後方についている乗用車の画像」がテストデータとして入力された場合、エンブレムの位置に関わらず、車の後方が水平(荷台)でないことから、「乗用車」と認識できる。
したがって、学習装置1は、認識結果に影響を与えたくない属性ラベルが存在する場合、あるいは、学習に含めたくない属性ラベルが存在する場合でも、学習したい属性ラベルを明示的に学習器に指定して学習することができるので、汎化能力の低下を抑制することができる。
実施例1では、車の画像(写真)から写っている車が乗用車かトラックかを認識する例を説明したが、これに限定されるものではなく、他の様々な画像認識を適用することができる。そこで、実施例2では、一例として、人の画像(写真)を成人か子供かのいずれかに認識する例を説明する。
図13は、実施例2にかかる訓練データを説明する図である。なお、データ構成は実施例1と同様とする。図13に示すように、実施例2では、関心属性として「成人かどうか」と、擾乱属性として「性別」が指定されている。
したがって、関心属性学習部15は、図13に示す訓練データに対して、「関心属性ラベル」と推定ラベルとが一致するようにNNの重みを学習する。擾乱属性学習部16は、図13に示す訓練データに対して、「擾乱属性ラベル」と推定ラベルとが一致するようにNNの重みを学習する。特徴学習部14は、「関心属性ラベル」と関心属性学習部15による推定ラベルとが一致するようにNNの重みを学習するとともに、「擾乱属性ラベル」と擾乱属性学習部16による推定ラベルとが一致しないようにNNの重みを学習する。
図14は、実施例2にかかる学習の重みの変化を説明する図である。図14に示すように、「特徴学習重み、関心属性学習重み、擾乱属性学習重み」の初期値として「W10、W20、W30」が設定されている状態で、1つ目の訓練データを用いての学習が終了すると、「W10、W20、W30」のうち関心属性学習重みが更新されて「W10、W21、W30」となる。続いて、「W10、W21、W30」のうち擾乱属性学習重みが更新されて「W10、W21、W31」となる。さらに、「W10、W21、W31」のうち特徴学習重みが更新されて「W11、W21、W31」となる。このように、訓練データを用いて随時学習し、評価基準を満たしたときの重みが「W1N、W2N、W3N」とすると、「特徴学習重み、関心属性学習重み」=「W1N、W2N」を学習結果DB12に格納する。
具体例を挙げると、学習部10は、エプロンをしている人画像であっても、長い髪の毛の人画像であっても、画像内の人の頭と体の大きさの割合によって、成人か子供かを認識するように学習する。
このような学習結果を用いた認識部20のラベル認識を説明する。図15は、実施例2にかかる認識結果を説明する図である。図15に示すように、認識部20は、男性がエプロンをした画像(I1´)が入力された場合でも、エプロンに関係なく、頭と体のバランスを特徴量(Ex1)として抽出できるので、「成人」と正しく認識することができる。同様に、認識部20は、制服を着た小学生の画像(I2´)が入力された場合でも、制服等に関係なく、頭と体のバランスを特徴量(Ex2)として抽出できるので、「子供」と正しく認識することができる。
したがって、このような学習結果は、たばこ、お酒などのように成人にしか購入できない商品の購入者の判別などに利用することができる。
ところで、上述した成人判定の学習結果(重み情報)を購入して、性別判定などに悪用される可能性もある。しかし、実施例1-2にかかる学習結果では、悪用された場合でも、悪用者が期待する認識精度が出ないので、結果として悪用を抑制することができる。
図16は、学習結果の流用を説明する図であり、図17は、学習結果の流用時の属性学習を説明する図である。図16に示すように、悪用者は、訓練データの入力、特徴抽出、属性学習を行う際に、最も難しい特徴抽出に学習結果を流用する。すなわち、悪用者は、特徴を学習しないので少ないデータで済むと期待し、属性(性別)の学習のみを実行する。そして、悪用者は、成人判定の特徴抽出を用いて、属性(性別)の学習結果(属性重み:XXX)を取得する。その後、悪用者は、成人判定の特徴抽出の重み(特徴重み:W1N)を適用した特徴抽出と属性重み(XXX)を適用した属性認識とを含む認識器を用いて、性別認識を行うことを試みる。
しかし、図17に示すように、成人判定の特徴抽出を用いて属性(性別)の学習を行った場合、「属性ラベル=男性」のデータ「I1」であっても、「属性ラベル=女性」のデータ「I2」であっても、属性ラベルに依存しない特徴量(例えば、頭と体の大きさの割合)が抽出される。したがって、図17に示すように、属性学習重みは初期値「W10」から更新されるが収束しない。すなわち、悪用者による学習器は、性別に関係ない特徴で学習することになり、属性学習重みが評価基準を満たさない。このように、学習結果を悪用された場合でも、悪用者が期待する認識精度を得ることは難しい。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
[学習器と認識器]
上記実施例では、学習器と認識器とを1つの装置で実現する例を説明したが、これに限定されるものではなく、別々の装置で実現することもできる。なお、学習器の学習の順番は、順不同である。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報、閾値については、特記する場合を除いて任意に変更することができる。なお、関心属性学習部15と関心属性認識部24は、第1の教師有学習器の一例であり、擾乱属性学習部16は、第2の教師有学習器の一例であり、特徴学習部14と特徴抽出部23は、特徴抽出器の一例である。関心属性学習部15は、第1学習部の一例であり、擾乱属性学習部16は、第2学習部の一例であり、特徴学習部14は、第3学習部の一例である。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
図18は、ハードウェア構成例を説明する図である。図18に示すように、学習装置1は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。
通信インタフェース10aは、他の装置の通信を制御するネットワークインタフェースカードなどである。HDD10bは、プログラムやデータなどを記憶する記憶装置の一例である。
メモリ10cの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ10dの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。
また、学習装置1は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。つまり、学習装置1は、学習部10と認識部20と同様の機能を実行するプログラムを実行する。この結果、学習装置1は、学習部10と認識部20と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、学習装置1によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
1 学習装置
10 学習部
11 訓練データDB
12 学習結果DB
13 訓練データ入力部
14 特徴学習部
15 関心属性学習部
16 擾乱属性学習部
20 認識部
21 テストデータDB
22 テストデータ入力部
23 特徴抽出部
24 関心属性認識部
25 出力部

Claims (5)

  1. 適合ラベルおよび非適合ラベルの各データ項目を有する入力データから生成される特徴量を入力して第1の推定結果を出力する第1の教師有学習器に対し、前記第1の推定結果と前記適合ラベルとが一致するように学習させ、
    前記特徴量を入力して第2の推定結果を出力する第2の教師有学習器に対し、前記第2の推定結果と前記非適合ラベルとが一致するように学習させ、
    前記入力データから前記特徴量を生成する特徴抽出器に対し、前記適合ラベルの認識を促進させ、かつ、前記非適合ラベルの認識を抑制する学習を実行させる、
    処理をコンピュータに実行させる学習プログラム。
  2. 前記第1の推定結果と前記適合ラベルとの誤差が小さくなるように、かつ、前記第2の推定結果と前記非適合ラベルとの誤差が大きくなるように、前記特徴抽出器を学習させる処理を前記コンピュータに実行させる請求項1に記載の学習プログラム。
  3. 学習済みの前記特徴抽出器を用いて、認識対象のテストデータから前記特徴量を生成し、学習済みの前記第1の教師有学習器を用いて、前記特徴量から前記適合ラベルを認識する処理を前記コンピュータに実行させる請求項1または2に記載の学習プログラム。
  4. 適合ラベルおよび非適合ラベルの各データ項目を有する入力データから生成される特徴量を入力して第1の推定結果を出力する第1の教師有学習器に対し、前記第1の推定結果と前記適合ラベルとが一致するように学習させ、
    前記特徴量を入力して第2の推定結果を出力する第2の教師有学習器に対し、前記第2の推定結果と前記非適合ラベルとが一致するように学習させ、
    前記入力データから前記特徴量を生成する特徴抽出器に対し、前記適合ラベルの認識を促進させ、かつ、前記非適合ラベルの認識を抑制する学習を実行させる、
    処理をコンピュータが実行する学習方法。
  5. 適合ラベルおよび非適合ラベルの各データ項目を有する入力データから生成される特徴量を入力して第1の推定結果を出力する第1の教師有学習器に対し、前記第1の推定結果と前記適合ラベルとが一致するように学習させる第1学習部と、
    前記特徴量を入力して第2の推定結果を出力する第2の教師有学習器に対し、前記第2の推定結果と前記非適合ラベルとが一致するように学習させる第2学習部と、
    前記入力データから前記特徴量を生成する特徴抽出器に対し、前記適合ラベルの認識を促進させ、かつ、前記非適合ラベルの認識を抑制する学習を実行させる第3学習部と、
    を有する学習装置。
JP2018045890A 2018-03-13 2018-03-13 学習プログラム、学習方法および学習装置 Active JP7006401B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018045890A JP7006401B2 (ja) 2018-03-13 2018-03-13 学習プログラム、学習方法および学習装置
US16/287,685 US10891516B2 (en) 2018-03-13 2019-02-27 Non-transitory computer-readable recording medium, learning method, and learning apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018045890A JP7006401B2 (ja) 2018-03-13 2018-03-13 学習プログラム、学習方法および学習装置

Publications (2)

Publication Number Publication Date
JP2019159824A JP2019159824A (ja) 2019-09-19
JP7006401B2 true JP7006401B2 (ja) 2022-01-24

Family

ID=67905822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018045890A Active JP7006401B2 (ja) 2018-03-13 2018-03-13 学習プログラム、学習方法および学習装置

Country Status (2)

Country Link
US (1) US10891516B2 (ja)
JP (1) JP7006401B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7163786B2 (ja) * 2019-01-17 2022-11-01 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7156049B2 (ja) * 2019-01-17 2022-10-19 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7279368B2 (ja) * 2019-01-17 2023-05-23 富士通株式会社 学習方法、学習プログラムおよび学習装置
JP7388239B2 (ja) * 2020-02-21 2023-11-29 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
US11693921B2 (en) * 2020-12-10 2023-07-04 Baker Hughes Holdings Llc Data preparation for artificial intelligence models

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217349A1 (en) 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Optimizing multi-class multimedia data classification using negative data
JP2017146745A (ja) 2016-02-16 2017-08-24 キヤノン株式会社 情報処理装置、制御方法、情報処理システム、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5353482B2 (ja) 2009-06-26 2013-11-27 株式会社日立情報通信エンジニアリング パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
US9792532B2 (en) * 2013-06-28 2017-10-17 President And Fellows Of Harvard College Systems and methods for machine learning enhanced by human measurements
JP2015176175A (ja) 2014-03-13 2015-10-05 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
US10515304B2 (en) * 2015-04-28 2019-12-24 Qualcomm Incorporated Filter specificity as training criterion for neural networks
US9443320B1 (en) 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217349A1 (en) 2015-01-22 2016-07-28 Microsoft Technology Licensing, Llc. Optimizing multi-class multimedia data classification using negative data
JP2017146745A (ja) 2016-02-16 2017-08-24 キヤノン株式会社 情報処理装置、制御方法、情報処理システム、およびプログラム

Also Published As

Publication number Publication date
US20190286939A1 (en) 2019-09-19
US10891516B2 (en) 2021-01-12
JP2019159824A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP7006401B2 (ja) 学習プログラム、学習方法および学習装置
CN107045618B (zh) 一种人脸表情识别方法及装置
CN106897746B (zh) 数据分类模型训练方法和装置
US10783402B2 (en) Information processing apparatus, information processing method, and storage medium for generating teacher information
KR20180125905A (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
JP6760318B2 (ja) 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
EP3786846B1 (en) Method used for identifying object, device and computer readable storage medium
US20150286857A1 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
CN110827797B (zh) 语音应答事件分类处理方法和装置
KR20200074958A (ko) 뉴럴 네트워크 학습 방법 및 디바이스
CN111401343B (zh) 识别图像中人的属性的方法、识别模型的训练方法和装置
Liao et al. Knowledge-aware multimodal fashion chatbot
CN112348417A (zh) 一种基于主成分分析算法的营销价值评估方法及装置
CN112241667A (zh) 图像检测方法、装置、设备及存储介质
CN111382410B (zh) 刷脸验证方法及系统
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN116745763A (zh) 用于自动提取分类训练数据的系统和方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN109902167B (zh) 嵌入结果的解释方法和装置
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
CN108596094A (zh) 人物风格检测系统、方法、终端及介质
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN115512202A (zh) 基于度量学习的小样本目标检测方法、系统和存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 7006401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150