JP2015185149A - 機械学習装置、機械学習方法、及びプログラム - Google Patents

機械学習装置、機械学習方法、及びプログラム Download PDF

Info

Publication number
JP2015185149A
JP2015185149A JP2014064173A JP2014064173A JP2015185149A JP 2015185149 A JP2015185149 A JP 2015185149A JP 2014064173 A JP2014064173 A JP 2014064173A JP 2014064173 A JP2014064173 A JP 2014064173A JP 2015185149 A JP2015185149 A JP 2015185149A
Authority
JP
Japan
Prior art keywords
data
teacher data
dimensional
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014064173A
Other languages
English (en)
Other versions
JP6277818B2 (ja
Inventor
大地 久田
Daichi HISADA
大地 久田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014064173A priority Critical patent/JP6277818B2/ja
Priority to US14/666,882 priority patent/US20150278710A1/en
Publication of JP2015185149A publication Critical patent/JP2015185149A/ja
Application granted granted Critical
Publication of JP6277818B2 publication Critical patent/JP6277818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減し得る、機械学習装置、機械学習方法、及びプログラムを提供する。
【解決手段】機械学習装置100は、2値のいずれかがラベルとして付与された教師データを第1の数値データに変換する特徴計算部11と、第1の数値データに基づいて、SVMを用いてラベルの判断基準を学習し、学習結果を示す学習モデルを作成するSVM学習部21と、第1の数値データを自己組織化マップ処理によってマトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の第1の数値データは近接する区画に所属させるSOM自己組織化マップ学習部22と、学習モデルを用いて2次元マップの区画及び代表データを分類するSVM分類部25と、分類の結果を表す2次元学習モデルを生成する学習モデル2次元化部31とを備える。
【選択図】図4

Description

本発明は、機械学習装置、機械学習方法、及びこれらを実現するためのプログラムに関する。
機械学習とは、人工知能の一種であり、コンピュータにおいて「学習」を行うことをいう。機械学習によれば、あるデータ集合に対し、その特性に対する情報を推測することができるので、機械学習から与えられた情報により、将来の値に対する予測をすることが可能となる(例えば、非特許文献1参照)。
また、機械学習においてユーザから与えられたデータ集合の特性を解析することを、「機械学習器が学習する」という。「機械学習器」とは何らかの機械学習手法が実装されたシステムのことを意味する。ここで、図16〜図18を用いて、従来からの機械学習手法が実装されたシステムについて説明する。図16は、従来からの機械学習手法が実装されたシステムの利用例1を示す図である。図17は、従来からの機械学習手法が実装されたシステムの利用例2を示す図である。図18は、従来からの機械学習手法が実装されたシステムの利用例3を示す図である。
利用例1では、図16(a)に示すように、機械学習器は、現在と24時間前との気温、湿度、風向き、及び気圧等のセンサデータを学習する。そして、図16(b)に示すように、気温、湿度、風向き、及び気圧等のセンサデータが入力されると、機械学習器は、24時間後の予想気温を出力する。
利用例2では、図17(a)に示すように、機械学習器は、メール文書に含まれる単語の出現頻度を学習する。そして、図17(b)に示すように、メールが入力されると、機械学習器は、入力されたメールが、スパムメールとそれ以外のメールとのいずれであるかを分類する。
利用例3では、図18(a)に示すように、機械学習器は、顧客の購買情報を学習する。そして、図18(b)に示すように、ある顧客の購買情報が入力されると、機械学習器は、入力された顧客を、その購買傾向を表す顧客カテゴリに分類する。
また、このような機械学習は、教師なし機械学習と教師あり機械学習との2つに分けることが出来る。このうち、教師なし機械学習は、ユーザが与えたデータのみから学習を行う機械学習である。一方、教師あり機械学習は、教師データを用いた学習を行う機械学習である。また、「教師データ」とは、学習の対象となるデータであって、ユーザが判断した値が付加されたデータのことをいう。
即ち、この2つの機械学習の相違点は、あるデータに対して機械学習器の出力すべき正解値を、ユーザが機械学習器に対して教えているか否かにある。従って、解析対象のデータに対して、ユーザが何らかの知見を有していて、機械学習から受け取りたい値が明確な場合は、教師あり機械学習が利用される。一方、解析対象のデータについて、ユーザが知識を有しておらず、ユーザにおいて機械学習器を使ってどのような解析を行えばよいかわからない場合は、教師なし機械学習が利用される。
そして、教師あり機械学習の利用例としては、上述の図16(a)及び(b)に示した24時間後の予想気温を出力するシステムが挙げられる。このシステムの場合は、過去のセンサデータに対して、既に観測されている24時間後のデータを付加し、得られたデータが教師データとされる。この教師データを教師あり機械学習器に与えることより、機械学習器は教師データの傾向を学習する。このようにして、学習した機械学習器を用いることにより、将来の気温を予測することが出来る。
また、教師なし機械学習の利用例としては、上述の図18(a)及び(b)に示した顧客カテゴリの分類システムが挙げられる。このシステムの場合は、教師なし機械学習器に各顧客の購買情報を与えると、機械学習器は購買情報の傾向を学習する。機械学習器が学習した購買情報の傾向を用いることにより顧客をカテゴリに分類できる。
また、とりわけ教師あり機械学習を利用したシステムにおいて、各種処理の精度を高めるためには、様々な状況に対応した教師データを大量に用意し、機械学習器に学習させる必要がある。しかしながら、あらゆる状況を網羅するように大量の種々の教師データを用意するのは、手間がかかり、困難である。
このため、例えば、非特許文献2及び3は、教師あり機械学習によって取得されたサポートベクトルマシン(SVM:Support Vector Machine)の学習モデルをユーザに図示する手法が提案されている。この手法では、分類結果と教師データとが2次元平面上に表示されるため、ユーザは、実際にどのような分類がなされているかを把握でき、効率的に教師データを用意することができると考えられる。
また、特許文献1は、教師あり機械学習器を用いて、代表的なデータに対する分類結果を提示し、ユーザの判断に合わない分類結果を修正した上で再学習を行うことによって、教師あり機械学習器が学習するデータ傾向を修正する手法を開示している。特許文献1に開示された手法によれば、既に学習させた教師データのカテゴリラベルを修正することにより、機械学習器が予測する値をユーザが望むように修正することが出来る。更に、特許文献2は、少数の教師データを用いて自動的に教師データを作成する手法を開示し、特許文献3は、機械学習器の学習結果に基づいて、不要な教師データを削除する手法を開示している。
特開2009−070284号公報 特開2013−125322号公報 特開2005−181928号公報
Toby Segaran, "Collective Intelligence", REILLY, pp.3, 2007 Xiaohong Wang, Sitao Wu, Xiaoru Wang, and Qunzhan Li, "SVMV - A Novel Algorithm for the Visualization of SVM Classification Results", Advances in Neural Networks - ISNN 2006 Lecture Notes in Computer Science, Volume 3971, 2006, pp 968-973 "How to Visualize Large Data Sets?", Advances in Self-Organizing Maps Advances in Intelligent Systems and Computing, Volume 198, 2013, pp 1-12
ところで、上述したように、教師あり機械学習においては、「大量の種々の教師データを用意するのは、手間がかかり、困難である」という問題がある。そして、この問題は、教師あり機械学習を利用したシステムにおける処理精度を高めつつ、解決する必要がある。従って、この問題の根本的解決のためには、教師あり機械学習器が学習したデータの傾向をユーザが確認できるようにし、その上で、ユーザに、学習に不足している教師データの追加を行わせることが必要となる。
しかしながら、非特許文献2及び3に開示された手法では、不適切な教師データは提示されるので、ユーザは不適切な教師データを削除できるが、不足している教師データは提示されないので、ユーザは、不足している教師データを追加することは不可能である。また、特許文献1に開示された手法では、不適切な教師データ及び不足している教師データの両方が提示されず、更に、ユーザは、教師データの追加及び削除も不可能である。また、特許文献2に開示された手法では、教師データを追加できるが、不適切な教師データを作ってしまう恐れがある。更に、特許文献3に開示された手法では、ユーザによる教師データの追加が不可能である。
このように、非特許文献1〜2、特許文献1〜3に開示された手法では、教師あり機械学習器が学習したデータの傾向をユーザが確認でき、その上で、ユーザが、学習に不足している教師データを追加する、ことは不可能である。つまり、非特許文献1〜2、特許文献1〜3に開示された手法では、上記問題の根本的解決は不可能である。
本発明の目的の一例は、上記問題を解消し、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減し得る、機械学習装置、機械学習方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における機械学習装置は、2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、特徴計算部と、
前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
前記分類の結果を表す2次元学習モデルを生成する、学習モデル2次元化部と、
を備えることを特徴とする。
また、上記目的を達成するため、本発明の一側面における機械学習方法は、
(a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
(b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
(c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
(d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
(e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
(b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
(c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
(d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
(e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
を実行させることを特徴とする。
以上のように、本発明によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。
図1は、従来からのサポートベクトルマシンによる処理を概念的に示す図である。 図2は、従来からの自己組織化マップを概念的に示す図である。 図3は、本発明において学習されたデータの傾向の一例を示す図である。 図4は、本発明の実施の形態における機械学習装置の概略構成を示すブロック図である。 図5は、本発明の実施の形態における機械学習装置の構成を具体的に示すブロック図である。 図6(a)は、本実施の形態で用いられる画像教師データの一例を示す図であり、図6(b)は、本実施の形態で用いられる画像教師データ候補の一例を示す図である。 図7(a)は、本実施の形態で用いられる画像特徴教師データの一例を示す図であり、図7(b)は、本実施の形態で用いられる画像特徴教師データ候補の一例を示す図であり、図7(c)は、本実施の形態で用いられるSOM代表データの一例を示す図である。 図8(a)は、本実施の形態で用いられる2次元教師データの一例を示す図であり、図8(b)は、本実施の形態で用いられる2次元教師データ候補の一例を示す図であり、図8(c)は、本実施の形態で用いられる合成2次元データの一例を示す図である。 図9は、本実施の形態で用いられる合成2次元データの一例を示す図である。 図10は、本発明の実施の形態における機械学習装置の動作を示すフロー図である。 図11は、本発明の実施の形態で行われる各フェーズを概略的に示す図である。 図12は、Gaborフィルタが適用される前の画像と適用された後の画像とを示す図である。 図13は、本発明の実施の形態において可視化された合成2次元データの一例を示す図である。 図14は、図13に示す合成2次元データにおいて、画像教師データの修正、削除又は追加が必要な場合の一例を示す図である。 図15は、本発明の実施の形態機械学習装置を実現するコンピュータの一例を示すブロック図である。 図16は、従来からの機械学習手法が実装されたシステムの利用例1を示す図である。 図17は、従来からの機械学習手法が実装されたシステムの利用例2を示す図である。 図18は、従来からの機械学習手法が実装されたシステムの利用例3を示す図である。
(発明の概要)
本発明の主な特徴は、教師あり機械学習手法であるサポートベクトルマシン(SVM:Support Vector Machine)に、教師なし機械学習手法である自己組織化マップ(SOM:Self-Organizing Maps)を組み合わせることにある。
SVMは、教師データを用いて基本的に2種類のデータの分類基準を学習する(後述の参考文献1参照)。SVMは、図1に示すように、2種類のデータの間の距離を最大化するような分類境界を学習する。図1は、従来からのサポートベクトルマシンによる処理を概念的に示す図である。また、SVMは、複雑な分類境界を持つデータを、簡単な分類基準になるように変換することが出来る。更に、SVMでは、簡単な分類基準を作成するために、データを高次元空間に変換するカーネル関数が用いられている。
SOMは、脳神経系をモデル化した機械学習手法であるニューラルネットワークの一種であり、教師データを用いることなく、高次元のデータをデータ間の距離関係を維持したまま2次元マップに投影できる手法である(後述の参考文献2参照)。本発明では、高次元データとSVMの判断基準とを2次元化するためにSOMが用いられる。
SOMは、図2に示すように、マトリクス状の区画とその区画に所属する代表データとにより構成されている。図2は、従来からの自己組織化マップを概念的に示す図である。図2に示すSOMにデータが入力されると、そのデータ傾向が解析され、解析結果に基づいて、入力されたデータの全部又は一部は、2次元マップ上のいずれかの区画の代表データとして投影される。
また、この時、距離の近い(似通った)2以上のデータは、近くの区画に所属すると計算され、距離の遠い(似ていない)2以上のデータは、離れた区画に所属すると計算される。SOMの各区画は、2次元平面上にあるため、区画を2次元座標であると捉えると、データを2次元平面のマップに投影することになる。
また、SOMにおいてデータ間の距離定義は、2つのデータ間の距離が計算できれば基本的には何でも良い。距離定義の例としては、ユークリッド距離、サイン距離、マンハッタン距離等が挙げられる。なお、例えば、画像を分類する際に用いるSVMが、画像を分類する際に、距離関数であるカーネル関数を使用するのであれば、SOMの距離定義としても、カーネル関数が用いられていても良い。
また、本発明の特徴としては、2次元表示したデータ傾向を用いて、不足している教師データの推定を容易にすることも挙げられる。つまり、2次元マップ上の教師データが不足している領域、言い換えると、2次元マップ上で疎となっている領域について、カテゴリラベルの付いていないデータを抽出し、これを提示することにより、不足している教師データの追加を容易にする。
更に、本発明の特徴としては、2次元表示したデータ傾向を用いて、ユーザの付けたカテゴリラベルが間違いである可能性が有る場合に、該当する教師データを検出することも挙げられる。この特徴により、ユーザにおける教師データの修正及び削除は容易なものとなる。
具体的には、述した特徴により、例えば、図3に示すように、機械学習器が学習したデータの傾向を2次元座標上の曲線を使って表すことが可能となる。この場合、画像教師データが不足している領域をユーザが見て確認でき、その領域にある画像を画像教師データに追加出来る。図3は、本発明において学習されたデータの傾向の一例を示す図である。
また、ユーザは、このように機械学習器が学習したデータ傾向を確認できるので、分類精度劣化の原因となる不適切な教師データを修正又は削除できる。なお、不適切な教師データとは、ユーザにもカテゴリの判断がつかないような教師データ、ユーザがカテゴリラベルを間違えて付与した教師データ等である。このように、機械学習器が学習したデータ傾向をユーザが確認できるので、ユーザは、教師データについては、追加、修正、又は削除のみを行えば良く、効率的に教師データを用意することができる。
なお、従来においては、機械学習器が学習したデータ傾向を図3のように図示して、ユーザに確認を行わせることは不可能である。これは、機械学習器の学習するデータ傾向は非常に次元の多い数値データであり、本発明を用いずに、データ傾向を、ユーザの理解しやすい2次元座標で表現することは不可能だからでる。そのため、従来においては、大量の教師データをユーザが作成し、これを機械学習器に与えて学習させ、機械学習器の検出精度が悪ければ、再度大量の教師データを作成して検出精度を向上させる必要がある。従来においては、効率的に教師データを用意することは極めて困難である。
(実施の形態)
以下、本発明の実施の形態における、機械学習装置、機械学習方法、及びプログラムについて、図4〜図15を参照しながら説明する。
[装置構成]
最初に、図4を用いて、本発明の実施の形態における機械学習装置の概略構成について説明する。図4は、本発明の実施の形態における機械学習装置の概略構成を示すブロック図である。
図1に示す本実施の形態における機械学習装置100は、サポートベクトルマシンに、自己組織化マップを組み合わせて構築されている。図1に示すように、機械学習装置100は、特徴計算部11と、サポートベクトルマシン学習部21と、自己組織化マップ学習部22と、サポートベクトルマシン分類部23と、学習モデル2次元化部31とを備えている。なお、以降においては、サポートベクトルマシンは「SVM」と表記し、自己組織化マップは「SOM」と表記する。
特徴計算部11は、2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する。SVM学習部21は、教師データを変換して得られた第1の数値データに基づいて、SVMを用いて、ラベルにおける2値の判断基準を学習し、学習結果を示す学習モデルを作成する。
SOM学習部22は、教師データを変換して得られた第1の数値データを、SOM処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影する。また、SOM学習部22は、その際、距離が近い2以上の第1の数値データは、近接する区画に所属させる。
SVM分類部23は、SVM学習部21によって作成された学習モデルを用いて、第1の数値データが投影された2次元マップの区画及び代表データを分類する。学習モデル2次元化部31は、分類の結果を示す2次元学習モデルを生成する。
このように、本実施の形態における機械学習装置100では、ユーザは、2次元学習モデルを用いることで、機械学習器が学習したデータ傾向を確認できるので、修正すべき教師データ、削除すべき教師データ、及び追加すべき教師データを簡単に把握できる。従って、機械学習装置100によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。
続いて、図5〜図9を用いて、本発明の実施の形態における機械学習装置の構成を更に具体的に説明する。図5は、本発明の実施の形態における機械学習装置の構成を具体的に示すブロック図である。
また、以下の説明では、教師データとしては、ユーザが0又は1のカテゴリラベルを付与した画像データが用いられるとする。また、画像データにカテゴリラベルを付加して得られた教師データを「画像教師データ」と表記する。
図2に示すように、本実施の形態における機械学習装置100は、主に、前処理部10と、学習部20と、2次元化部30と、提示部40とを備えている。以下、各部について具体的に説明する。
図5に示すように、前処理部10は、特徴計算部11と、画像教師データ蓄積部12と、画像教師データ候補蓄積部13と、画像特徴教師データ蓄積部14と、画像特徴教師データ候補蓄積部15とを備えている。前処理部10は、この構成により、画像教師データと、画像教師データ候補とを、サポートベクトルマシンと自己組織化マップとでの学習に利用できる数値データへ変換する。
画像教師データ蓄積部12は、画像データに対して、ユーザが、0又は1のカテゴリラベルを付加したデータを、画像教師データとして蓄積する。画像教師データにおいては、ユーザの手作業によってカテゴリラベルが付加されているため、不適切なカテゴリラベルが付けられている可能性がある。本実施の形態では、後述するように、画像教師データ蓄積部12に蓄積されている画像教師データの中から、SVMの学習に不適切な画像教師データがユーザに提示され、ユーザに対して、この画像教師データの修正又は削除が促される。
画像教師データ候補蓄積部13は、ユーザによってカテゴリラベルが付加されていない画像データを、画像教師データ候補として蓄積する。理想的には、全ての画像データを画像教師データとするべきであるが、画像データ量が多い場合は不可能である。そのため、本実施の形態では、SVMの学習に不足している画像教師データを補填するため、画像教師データ候補がユーザに提示され、ユーザに対して、カテゴリラベルの付加が促される。
ここで、図6を用いて、画像教師データと画像教師データ候補の具体例について説明する。図6(a)は、本実施の形態で用いられる画像教師データの一例を示す図であり、図6(b)は、本実施の形態で用いられる画像教師データ候補の一例を示す図である。
図6の例では、画像データは、侵入検知システムの判断用のデータである。図6(a)に示すように、画像教師データには、カテゴリラベル「1」を侵入とし、カテゴリラベル「0」を非侵入とした、ラベルが付与されている。一方、図6(b)に示すように、画像教師データ候補には、ラベルは付与されていない。
特徴計算部11は、上述したように、画像教師データ蓄積部12に蓄積されている画像教師データ(図6(a)参照)を、SVMとSOMとが学習することができる第1の数値データ(以下「画像特徴教師データ」と表記する。)に変換する。また、特徴計算部11は、更に、画像教師データ候補蓄積部13に蓄積されている画像教師データ候補(図6(b)参照)を、第2の数値データ(以下「画像特徴教師データ候補」と表記する。)に変換する。
画像特徴教師データ蓄積部14は、特徴計算部11による変換によって得られた画像特徴教師データを蓄積する。画像特徴教師データ候補蓄積部15は、特徴計算部11による変換によって得られた画像特徴教師データ候補を蓄積する。なお、画像特徴教師データ、画像特徴教師データ候補の具体例については、図7を用いて後述する。
また、図5に示すように、学習部20は、SVM部20aとSOM部20bとを備えている。学習部20は、この構成により、前処理部10によって蓄積された画像特徴教師データを使ってSVMとSOMとを学習する。また、学習部20は、学習したSVMを使って、後述するSOM代表データを分類し、更に、分類されたSOM代表データ(後述の図7(c)参照)を使って、画像特徴教師データと画像特徴教師データ候補とを分類する。
SVM部20aは、SVM学習部21、SVM学習モデル保持部23、及びSVM分類部25とを備えている。SVM部20aは、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データ(後述の図7(a)参照)を用いて、カテゴリ0と1との分類判断基準を学習し、画像教師データ(図6(a))を分類する。
SVM学習部21は、本実施の形態では、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データを入力として、SVMを用いて、カテゴリ0と1との判断基準を学習する。SVM学習部21は、学習した結果としてSVM学習モデルを出力する。ここで、SVM学習モデルとはSVMが学習した分類基準のことである。
SVM学習モデル保持部23は、SVM学習部21から出力された、カテゴリ0と1との判断基準、即ち、SVM学習モデルを保持する。SVM学習モデルは、後述するSOM代表データのカテゴリラベルの分類に用いられる。
SVM分類部25は、本実施の形態では、SVM学習モデル保持部23によって保持されているSVM学習モデルを用いて、後述のSOM代表データ(後述の図7(c)参照)を、カテゴリ0と1とに分類する。SVM学習モデルは、本発明ではSOM代表データ(図10、1003)を分類する際に用いられる。
また、SOM部20bは、SOM学習部22と、SOM代表データ保持部24と、SOM分類部26とを備えている。SOM部20aは、SOM代表データ(後述の図7(c)参照)を計算する。SOM代表データは、画像特徴教師データ(後述する図7(a)参照)と画像特徴教師データ候補(後述する図7(b)参照)とを、2次元データに変換する際に使用されるデータである。SOM部20aは、各データの所属区画を特定するため、SVMの分類基準、画像教師データ、及び画像教師データ候補の可視化が可能となる。
SOM学習部22は、本実施の形態では、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データを、SOM処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影して、SOMを学習する。SOM学習部22は、SOMの学習の後、画像特徴教師データが投影された2次元マップから、SOM代表データを作成し、これを出力する。
SOM代表データ保持24部は、SOM学習部22によって出力されたSOM代表データを保持する。SOM代表データは、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データと、画像特徴教師データ候補蓄積部15に蓄積されている画像特徴教師データ候補との2次元マップ上の所属区画の特定に用いられる。
SOM分類部26は、SOM代表データを用いて、各画像特徴教師データに対応する2次元マップ上の区画を特定する。具体的には、SOM分類部26は、画像特徴教師データとの距離が最も小さくなるSOM代表データを求め、求めたSOM代表データが所属する区画を特定する。また、SOM分類部26は、上記と同様に、SOM代表データを用いて、各画像特徴教師データ候補に対する区画も特定する。
ここで、図7を用いて、画像特徴教師データ、画像特徴教師データ候補、及びSOM代表データの具体例について説明する。図7(a)は、本実施の形態で用いられる画像特徴教師データの一例を示す図であり、図7(b)は、本実施の形態で用いられる画像特徴教師データ候補の一例を示す図であり、図7(c)は、本実施の形態で用いられるSOM代表データの一例を示す図である。
図7(a)に示すように、画像特徴教師データは、画像データ毎の画像特徴量とカテゴリラベルとで構成された数列データである。一方、図7(b)に示すように、画像特徴教師データ候補は、画像データ毎の画像特徴量のみで構成された数値データである。また、図7(c)に示すように、SOM代表データは、2次元マップを構成する区画毎の代表データで構成された数値データである。図7(c)の例では、各区画に投影された画像特徴教師データの画像特徴量が、各代表データとなっている。また、このため、画像特徴量が同一の画像特徴教師データが複数存在する場合、これらの画像特徴教師データは同じ区画に所属することになる。
また、図5に示すように、2次元化部30は、学習モデル2次元化部31と、教師データ2次元化部32と、教師データ候補2次元化部33と、2次元学習モデル保持部34と、2次元教師データ保持部35と、2次元教師データ候補保持部36と、データ合成部37と、合成2次元データ保持部38とを備えている。
学習モデル2次元化部31は、上述したように、SVM分類部25による分類の結果を表す、2次元学習モデルを生成する。具体的には、学習モデル2次元化部31は、SVM分類部26が、SVM学習モデルとSOM代表データとを用いて、画像特徴教師データを分類することによって取得した、カテゴリ0、1の分類基準を2次元化し、これによって2次元学習モデル(後述の図8(c)参照)を作成する。
教師データ2次元化部32は、画像特徴教師データと、SOM分類部26によって特定された所属区画とを紐付けて、2次元教師データ(後述の図8(a)参照)を作成する。また、作成された2次元教師データは、2次元教師データ保持部35に保持される。
教師データ候補2次元化部33は、画像特徴教師データ候補と、SOM分類部26によって特定された所属区画とを紐付けて、2次元教師データ候補(後述の図8(b)を参照)を作成する。また、作成された2次元教師データ候補は、2次元教師データ候補保持部36に保持される。
2次元学習モデル保持部34は、学習モデル2次元化部31によって作成された2次元学習モデル(後述の図8(c)参照)を保持する。2次元教師データ保持部35は、教師データ2次元化部32によって作成された2次元化教師データ(後述の図8(a)参照)を保持する。2次元教師データ候補保持部36は、教師データ候補2次元化部33によって作成された2次元化教師データ候補(後述の図8(b)参照)を保持する。
データ合成部37は、2次元学習モデルに、2次元教師データと、2次元教師データ候補とを組み合せて、合成2次元データ(後述の図9参照)を作成する。また、データ合成部37によって作成された合成2次元データは、合成2次元データ保持部38に保持される。
また、合成2次元データは、後述する合成2次元データ提示部41が、2次元学習モデルと、修正又は削除の対象となる画像教師データと、追加の対象となる画像教師データ候補とを、画面上に提示する際に用いられる。
ここで、図8を用いて、2次元教師データ、2次元教師データ候補、及び2次元学習モデルについて説明し、図9を用いて、合成2次元データについて説明する。図8(a)は、本実施の形態で用いられる2次元教師データの一例を示す図であり、図8(b)は、本実施の形態で用いられる2次元教師データ候補の一例を示す図であり、図8(c)は、本実施の形態で用いられる合成2次元データの一例を示す図である。図9は、本実施の形態で用いられる合成2次元データの一例を示す図である。
図8(a)に示すように、2次元教師データは、画像教師データ毎の、画像データの名称、カテゴリラベル、及び所属する区画の情報によって構成されている。また、図8(b)に示すように、2次元教師データ候補は、画像教師データ候補毎の、画像データの名称及び所属する区画の情報によって構成されている。更に、図8(c)に示すように、2次元学習モデルは、区画毎の、代表データ及びカテゴリラベルによって構成されている。また、図9に示すように、合成2次元データは、SOM代表データ毎の、カテゴリラベル、対応する区画に所属する画像特徴教師データの名称、対応する区画に所属する画像特徴教師データ候補の名称で構成されている。
また、図5に示すように、提示部40は、合成2次元データ提示部41と、教師データ改善部42とを備えている。提示部40は、この構成により、画像教師データを用いて作成したSVM学習モデルと、画像教師データと、画像教師データ候補とを可視化し、ユーザに対して、画像教師データの修正、削除、又は追加を促すことができる。
合成2次元データ提示部41は、合成2次元データ(図9参照)に基づいて、SVMの学習状況を可視化して、ユーザに提示する。具体的には、合成2次元データ提示部41は、合成2次元データに基づいて、画面上に、2次元学習モデル(図8(c)参照)の区画を表示させる。また、合成2次元データ提示部41は、その際、各区画において、分類の結果、各区画に紐付けられている画像特徴教師データの個数、及び区画に紐付けられている画像特徴教師データのラベルの内容を明示する。
また、合成2次元データ提示部41は、表示されている区画のいずれかが選択された場合は、選択された区画に紐付けられている画像特徴教師データ及び画像特徴教師データ候補を特定する。そして、合成2次元データ提示部41は、特定した画像特徴教師データの変換元の教師データと、特定した画像特徴教師データ候補の変換元の教師データ候補とを、画面上に表示させる。
教師データ改善部42は、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとを対比する。そして、教師データ改善部42は、対比の結果に基づいて、画面上で、ユーザに対して、対象となる区画に紐付けられている画像特徴教師データの変換元の画像教師データに対する、削除又はラベルの修正を指示する。
また、教師データ改善部42は、対象となる区画に紐付けられている画像特徴教師データの個数が閾値以下である場合は、対象となる区画に紐付けられている画像特徴教師データ候補の変換元の画像教師データ候補を、画面上に表示させる。そして、教師データ改善部42は、ユーザに対して、表示されている画像教師データ候補を画像教師データとして追加するように指示する。
[装置動作]
次に、本発明の実施の形態における機械学習装置100の動作について図10を用いて説明する。図10は、本発明の実施の形態における機械学習装置の動作を示すフロー図である。以下の説明においては、適宜図4〜図9を参酌する。また、本実施の形態では、機械学習装置100を動作させることによって、機械学習方法が実施される。よって、本実施の形態における機械学習方法の説明は、以下の機械学習装置100の動作説明に代える。
まず、前提として、ユーザは、大量の画像データを用意し、その内の一部について、自身の判断に基づいて、0か1のカテゴリラベルを付加し、カテゴラリラベルが付加された画像データを画像教師データとする。また、ユーザは、カテゴリラベルを付加されなかった画像データを画像教師データ候補とする。そして、ユーザは、端末装置等を用いて、画像教師データ及び画像教師データ候補を、機械学習装置100に入力する。
次に、図10に示すように、機械学習装置100は、画像教師データ及び画像教師データ候補の入力を受け付けると、入力された画像教師データを画像教師データ蓄積部12に蓄積し、画像教師データ候補を画像教師データ候補蓄積部13に蓄積する(ステップA1)。
次に、特徴計算部11は、画像教師データ蓄積部12に蓄積されている画像教師データを画像特徴教師データに変換し、画像教師データ候補蓄積部13に蓄積されている画像教師データ候補を画像特徴教師データ候補に変換する(ステップA2)。また、特徴計算部11は、画像特徴教師データを、画像特徴教師データ蓄積部14に蓄積させ、画像特徴教師データ候補を、画像特徴教師データ候補蓄積部15に蓄積させる。
次に、SVM学習部21は、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データを入力として、SVMを用いて、カテゴリ0と1との判断基準を学習する(ステップA3)。また、SVM学習部21から出力されたカテゴリ0と1との判断基準、即ち、SVM学習モデルは、SVM学習モデル保持部23に保持される。
次に、SOM学習部22は、画像特徴教師データ蓄積部14に蓄積されている画像特徴教師データを、SOM処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影して、SOMを学習する(ステップA4)。また、SOM学習部22は、2次元マップからSOM代表データを作成し、これを、SOM代表データ保持24部に出力して保持させる。
次に、SOM分類部26は、SOM代表データを用いて、画像特徴教師データが対応する2次元マップ上の区画と、画像特徴教師データ候補が対応する2次元マップ上の区画とを特定する(ステップA5)。
次に、SVM分類部25は、SVM学習モデル保持部23によって保持されているSVM学習モデルを用いて、ステップA4で作成されたSOM代表データを、カテゴリ0と1とに分類する(ステップA6)。
次に、学習モデル2次元化部31は、ステップA6における分類の結果を表す2次元学習モデルを作成する(ステップA7)。作成された2次元学習モデル(の図8(c)参照)は、学習モデル2次元化部31によって保持される。
次に、教師データ2次元化部32は、画像教師データと、ステップA5で特定された所属区画とを紐付けて、2次元教師データを作成する(ステップA8)。また、ステップA8では、教師データ候補2次元化部33が、画像特徴教師データ候補と、ステップA5で特定された所属区画とを紐付けて、2次元教師データ候補も作成する。また、2次元教師データは、2次元教師データ保持部35に保持され、2次元教師データ候補は、2次元教師データ候補保持部36に保持される。
次に、データ合成部37は、2次元学習モデルに、2次元教師データと、2次元教師データ候補とを組み合せて、合成2次元データ(図9参照)を作成する(ステップA9)。
次に、合成2次元データ提示部は、合成2次元データ(図12)に基づいて、SVMの学習状況を可視化して、ユーザに提示する(ステップA10)。具体的には、合成2次元データ提示部41は、画面上に、2次元学習モデル(図8(c)参照)の区画を表示させる。
次に、教師データ改善部42は、教師データについて、削除、修正、追加が必要かどうかを判定する(ステップA11)。ステップA11の判定の結果、教師データについて、削除、修正、追加が必要でない場合は、機械学習装置100における処理は終了する。
一方、ステップA11の判定の結果、教師データについて、削除、修正、追加が必要である場合は、教師データ改善部42は、そのことを画面上に提示して、ユーザに指示する(ステップA12)。ステップA12の実行後に、ユーザによって、削除、修正、追加が行われた場合は、再度ステップA3が実行される。
その後、本実施の形態では、最終的に得られたSVM学習モデルを用いて、侵入検知システムに適用可能な画像分類システムが構築される。
一般に、画像分類システムにおいてカテゴリ分類の精度を高めたい場合、同じ状況の画像だけでなく様々な状況の画像にカテゴリラベルを付けた画像教師データを大量に用意し、機械学習器に学習させる必要がある。しかし、あらゆる状況の画像を網羅的に収集し大量の画像教師データを用意するのは、手間がかかってしまう。
これに対して、本実施の形態における機械学習装置を用いれば、SVMが学習したデータの傾向をユーザが確認し、学習に不足している教師データのみを与えることができるので、教師データ準備のための手間が削減される。また、分類精度劣化の原因となる不適切な画像教師データを修正又は削除することもでき、分類精度の向上も図られる。なお、不適切な画像教師データとは、ユーザにもカテゴリの判断がつかないような画像教師データや、カテゴリラベルが間違っている画像教師データのことである。
[具体例]
続いて、図11〜15を用いて本実施の形態の具体例について以下に説明する。また、以下の説明では、適宜、図1〜図10を参照する。図11は、本発明の実施の形態で行われる各フェーズを概略的に示す図である。
まず、前提として、ユーザによって、画像教師データと画像教師データ候補とが入力され、それぞれ、画像教師データ蓄積部12又は画像教師データ候補蓄積部13に蓄積されているとする。その後、図11に示すように、画像特徴計算フェーズ、モデル学習フェーズ、2次元化フェーズ、教師データ改善フェーズが実行される。
画像特徴計算フェーズ:
画像特徴計算フェーズでは、画像教師データと画像教師データ候補とのぞれぞれから画像の特徴量が計算される。具体的には、特徴計算部11は、画像教師データ及び画像教師データ候補それぞれから、画像特徴量を計算し、各データを1つの数値データ列に変換する。
また、特徴計算部11は、画像教師データを画像特徴量に変換して得られた画像特徴教師データを、画像特徴教師データ蓄積部14に蓄積する。更に、特徴計算部11は、画像教師データ候補を画像特徴量に変換して得られた画像特徴教師データ候補を、画像特徴教師データ候補蓄積部15に蓄積する。
また、本実施の形態で用いられる画像特徴量の計算方法は、画像を数値データ列に変換できる方法であれば特に限定されない。画像特徴量の計算方法の具体例としては、SIFT方法(後述の参考文献3参照)、HOG方法(後述の参考文献3参照)、Gabor方法(後述の参考文献4参照)などがある。
例えば、画像特徴量をGabor方法で計算する場合は、まず、特徴計算部11は、各画像にGaborフィルタを適用し、白黒の画像に変換する。図12に示すように、Gaborフィルタが適用された画像は、特定の方向に対する線が白く浮かび上がった画像となる。図12は、Gaborフィルタが適用される前の画像と適用された後の画像とを示す図である。
次に、特徴計算部11は、Gaborフィルタを適用した画像を等間隔で分割し、各区画に含まれるピクセル値の割合を計算し、そして、各区画のピクセル値の割合を横に並べた数値列を画像特徴量とする。また、特徴計算部11は、画像特徴量に、元々の画像教師データの名前とカテゴリラベルとを付加して、画像特徴教師データとする。特徴計算部11は、変換元のデータにカテゴリラベルが付加されていない場合は、画像特徴量に元々の画像教師データ候補の名前を付加して、画像特徴教師データ候補とする。
画像特徴計算フェーズで計算された画像特徴教師データと画像特徴教師データ候補とは、次のモデル学習フェーズにおいて、SVMとSOMの学習モデルの作成に用いられる。
モデル学習フェーズ:
SVM学習部21は、画像特徴教師データを入力として、カテゴリ0又は1の判断基準であるSVM学習モデルを、後述の参考文献1に記載の反復的学習法を用いて作成し、作成したSVM学習モデルを、SVM学習モデル保持部23に保存させる。具体的には、SVM学習モデルは、SVMを用いてデータを2つのカテゴリに分割する分類境界線を表すパラメータ値である。
SOM学習部22は、画像特徴教師データを入力として、SOM代表データ(図7(c)参照)を作成し、これをSOM代表データ保持部24に保存させる。SOMにおいて、教師データを元にSOM代表データを計算することを学習とよぶ。
SOMは、教師なし機械学習手法であるため、画像教師データに付加されている1又は0のカテゴリラベルは不要となる。また、本実施の形態では、SVMにおいて用いられているカーネル関数が、SOMでのデータ間の距離定義として用いられる。カーネル関数の例としては、多項式カーネル(後述の参考文献1参照)や、ガウシアンカーネル(後述の参考文献1参照)等が挙げられる。また、SOM代表データは、後述の参考文献5に開示されている方法を用いて作成することができる。
また、本実施の形態において、SOM代表データは、図7(c)に示すように、マトリクス状に区切られた各区画(図2参照)の代表データとその区画の区画番号とで構成された数値列データである。また、区画の代表データは、画像特徴量と同じ数の要素を持つ数値列データである。
そして、SVMとSOMの学習が終了すると、SVM学習モデルと、画像特徴教師データと、画像特徴教師データ候補とは、次の2次元化フェーズにおいて、SOM代表データに基づいて、2次元化される。
2次元化フェーズ:
2次元化フェーズでは、2次元化部30が、SVM学習モデルを、SOMを用いて2次元化する。学習モデル2次元化部31は、SOM代表データを、SVM学習モデルを用いて分類する。SVMを用いたデータの分類方法としては、後述の参考文献1に開示された手法が挙げられる。
SOM代表データ(図7(c)参照)の各区画を、SVMを用いて分類することにより、SOMを構成するマトリクス状の各区画(図2参照)が、カテゴリ0又は1のどちらに属するかわかる。SOMの各区画は、SVMがデータを分類する際に使用している距離定義を使用して2次元平面を構成している。SOMが捉えているデータの距離空間とSVMの距離空間は同じであるため、SOM代表データをSVMで分類することにより、SVM学習が学習した判断基準 を2次元化出来る。
また、学習モデル2次元化部31は、SOM代表データに対して、SVMで分類した0、1のカテゴリラベルを付加し、これによって2次元学習モデル(図8(c)参照)とし、2次元学習モデルを2次元学習モデル保持部34に保存する。
教師データ2次元化部32は、各画像特徴教師データに対して最も距離が小さいSOM代表データ(図2参照)を計算し、そのSOM代表データが所属する区画を、画像特徴教師データの所属区画とする。また、教師データ2次元化部32は、画像特徴教師データに所属区画情報を付加し、これを2次元教師データ(図8(a)参照)として、2次元教師データ保持部35に保存する。
また、本実施の形態では、画像特徴教師データとSOM代表データとの距離を特定する距離関数としては、SVMで使用されているカーネル関数が使用される。例えば、画像特徴教師データ(図7(a)参照)の画像データ1が、SOM代表データ(図7(c)参照)の中で、区画番号1のSOM代表データと最も近いとする。この場合は、教師データ2次元化部32は、画像データ1の所属区画は1であるとして、2次元教師データ(図8(a)参照)を作成する。
また、教師データ候補2次元化部33は、教師データ2次元化部32と同様の処理を実行することによって、画像特徴教師データ候補それぞれについて、所属区画を求め、所属区画情報を付加する。更に、教師データ候補2次元化部33は、所属区画情報が付加された画像特徴教師データ候補を、2次元教師データ候補(図8(b)参照)として、2次元教師データ候補保持部35に保存する。
例えば、画像特徴教師データ候補(図7(b)参照)の画像データ1が、SOM代表データ(図7(c)参照)の中で、区画番号29のSOM代表データと最も近いとする。この場合は、教師データ候補2次元化部33は、画像データ1の所属区画は29であるとして、2次元教師データ候補(図8(b)参照)を作成する。
データ合成部37は、合成2次元データを作成する。具体的には、データ合成部37は、2次元学習モデルと、2次元教師データと、2次元教師データ候補とを用いて、SOMの区画を基準とした合成2次元データ(図9参照)を作成する。また、データ合成部37は、作成した合成2次元データを合成2次元データ保持部38に保存する。
本実施の形態において、合成2次元データは、図9に示すように、SOM代表データに対して、各区画のカテゴリラベルと、各区画に所属する画像特徴教師データの名称と、各区画に所属する画像特徴教師データ候補の名称とを付加して構成されている。
例えば、データ合成部37は、2次元学習モデル(図8(c)参照)の区画番号1に対して、2次元教師データ(図8(a)参照)の中から所属区画番号が1になっているデータを特定し、そのデータの画像データ名を区画番1の所属画像特徴教師データとする。また、同様に、データ合成部37は、2次元教師データ候補(図8(b)参照)の中からも区画番号1に所属するデータを探し、その画像データ名を区画番号1の所属画像教師データ候補とする。
このようにして得られた合成2次元データは、次の教師データ改善フェーズでは、可視化されてユーザに提示される。その後、修正、削除、又は追加の必要な画像教師データがユーザに提示し、ユーザに対して、画像教師データの改善が指示される。
教師データ改善フェーズ:
合成2次元データ提示部41は、合成2次元データ保持部38に保持されている合成2次元データ(図9参照)を用いて、SVMの学習モデルと、画像教師データと、画像教師データ候補とをユーザに提示する。以下、図13及び図14を用いて具体的に説明する。図13は、本発明の実施の形態において可視化された合成2次元データの一例を示す図である。図14は、図13に示す合成2次元データにおいて、画像教師データの修正、削除又は追加が必要な場合の一例を示す図である。
[1]SVM学習モデルの提示
合成2次元データ提示部41は、合成2次元データ保持部38に保持されている合成2次元データ(図9参照)を2次元マップとして可視化する。その際、合成2次元データ提示部41は、各SOM代表データに付与されているカテゴリラベルに合せて、可視化された2次元マップの区画の色を変化させる。
例えば、合成2次元データ提示部41は、図13に示すように、カテゴリラベル1が付いている区画は赤色で表示し、カテゴリラベル0が付いている区画を青色で表示する。また、合成2次元データ提示部41は、各区画の色の濃さを、それに所属する画像教師データ(図6(a)参照)の数に応じて変化させる。また、このとき、各区画に所属する画像教師データの数が6個以上であれば、色を濃くし、2〜5個であれば色を薄くし、1個以下であれば限りなく白に近い色とする。
具体的には、図9に示す合成2次元データにおいて、区画番号3の区画(最上段の左から三番目)では、カテゴリラベルが1であり、所属する画像教師データが3個であるとする。この場合、図13に示す2次元マップ上では、区画番号3の区画は、薄い赤色で表示されることになる。なお、図13においては、色の違いは、ハッチングの種類によって表現されている。また、色の濃さは、ハッチングのピッチによって表現されている。
[2]画像教師データの提示
また、合成2次元データ提示部41は、各区画に所属する画像教師データを元に、区画毎に、所属する画像教師データのカテゴリラベル別の比率を計算する。そして、図13に示すように、合成2次元データ提示部41は、所属する画像教師データのカテゴリラベルが全て一致していない区画については、その区画の中央に円形の図形を表示し、円形の図形を色分けする。また、このとき、色分けの比率によって、カテゴリラベルの比率が表現される。
具体的には、合成2次元データ提示部41は、合成2次元データのある区画に所属している画像教師データのすべてのカテゴリラベルが1であれば、2次元マップ(図13参照)の区画の中心の円形の図形は赤色のみで表示する。一方、合成2次元データ提示部41は、ある区画に所属している画像教師データの半分のカテゴリラベルが1で、残りの半分のカテゴリラベルが0であれば、区画の中心の円形の図形は、半分を赤色で表示し、残りの半分を青色で表示する。
また、図13に示すように、ユーザが2次元マップ上の特定の区画を指定すると、合成2次元データ提示部41は、その区画に所属している画像特徴データの変換元の画像教師データ(図6(a)参照)を表示する。例えば、ユーザが、赤色と青色とで表現された円形の図形が表示された区画を指定したとする。また、この区画に所属している画像教師データの数は2つであるとする。この場合は、合成2次元データ提示部41は、カテゴリラベル1が付加された1つの画像教師データと、カテゴリラベル0が付加された1つの画像教師データとを表示させる。
[3]画像教師データ候補の提示
ユーザが2次元マップ上の特定の区画を指定すると、合成2次元データ提示部41は、図13に示すように、その区画に所属している画像教師データ(図6(a)参照)に加え、画像教師データ候補(図6(b)参照)も表示することができる。例えば、上述したように、ユーザが、赤色と青色とで表現された円形の図形が表示された区画を指定したとする。この場合は、合成2次元データ提示部41は、カテゴリラベル1が付加された画像教師データと、カテゴリラベル0が付加された画像教師データに加えて、画像教師データ候補も表示させる。
[4]修正又は削除が必要な画像教師データの提示
教師データ改善部41は、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとを対比する。そして、教師データ改善部41は、対比の結果に基づいて、ユーザに対して、画面上で、この区画に紐付けられている画像特徴教師データの変換元の教師データに対する、削除又はラベルの修正を指示する。
例えば、図14に示すように、合成2次元データ(図9参照)において、特定の区画の周囲kマスに位置している区画のカテゴリラベルが全て同一であり、且つ、特定の区画に所属している画像教師データのカテゴリラベルが、その周囲の区画のカテゴリラベルと異なっているとする。この場合、教師データ改善部42は、該当する区画に所属する画像教師データは要修正画像教師データであると、ユーザに提示する。
具体的には、k=1であるとする。また、合成2次元データにおいて、区画番号1の周囲1マスの範囲にある他の区画に所属する画像教師データのカテゴリラベルは、全て1であるが、区画番号1の区画に所属する画像教師データのカテゴリラベルは0であるとする。この場合、教師データ改善部42は、区画番号1の区画に所属する画像教師データについて、カテゴリラベルの修正が必要なことをユーザに提示する。
また、図14に示すように、例えば、合成2次元データにおいて、特定の区画の周囲kマスに位置している区画のカテゴリラベルが1つでも他の周囲の区画のカテゴリラベルと異なっているとする。更に、特定の区画に所属している一部の画像教師データのカテゴリラベルが、同じ特定の区画に所属している他の画像教師データのカテゴリラベルと異なっているとする。このような場合、教師データ改善部42は、特定の区画に所属している一部の画像教師データは要削除画像教師データであると、ユーザに提示する。
具体的には、k=1であるとする。また、合成2次元データにおいて、区画番号5の周囲1マスの範囲にある区画のカテゴリラベルが1以上、他の周囲の区画のカテゴリラベルと異なっているとする。また、区画番号5の区画に所属する複数の画像教師データのカテゴリラベルは全て同一でないとする。この場合、教師データ改善部42は、区画番号5の区画に所属する複数の画像教師データのうち、カテゴリラベルが少数派となる画像教師データについて、削除が必要なことをユーザに提示する。
[5]追加対象となる教師データ候補の提示
教師データ改善部41は、対象となる区画に紐付けられている画像特徴教師データの個数が閾値以下である場合に、対象となる区画に紐付けられている画像特徴教師データ候補の変換元の教師データ候補を、画面上に表示させる。そして、教師データ改善部41は、ユーザに対して、教師データ候補を教師データとして追加するように指示する。
例えば、図14に示すように、教師データ改善部41は、合成2次元データにおいて、各区画について、所属する画像教師データの数を特定し、特定した数がs個以下であるかどうかを判定する。そして、判定の結果、s個以下である場合は、教師データ改善部41は、その区画に所属する画像教師データ候補を要追加画像教師データ候補として、ユーザに提示する。
具体的には、例えば、s=3であり、合成2次元データにおいて、区画番号3に所属する画像教師データが3つであるとする。この場合、教師データ改善部41は、区画番号3に所属する画像教師データ候補を、要追加教師データ候補として提示する。
[6]ユーザによる画像教師データの修正、削除、追加
上述の[4]及び[5]で説明したように、ユーザは提示を受けると、画像教師データのカテゴリラベルの修正、画像教師データの削除、画像教師データ候補(図9、902)にカテゴリラベルを付加することによる画像教師データの追加を実行する。この後、画像教師データが修正、削除、追加された状態で、再度、機械学習が実行される。
[実施の形態における効果]
以上のように、本実施の形態によれば、教師あり機械学習手法SVMが画像教師データから学習した分類基準を可視化することができる。また、画像教師データを学習したSVMにおいて、画像教師データが不足している場合は、そのことが提示され、更に、適切な画像教師データ候補も提示されるので、ユーザにおける手間が大きく軽減される。更に、SVMが学習した画像教師データの中から、学習に不適切な画像教師データが抽出され、それが提示されるので、機械学習を利用したシステムの精度の向上が図られる。
[応用例]
本実施の形態は、教師データが画像データであり、得られたSVM学習モデルが画像分類システムとして利用される場合について説明しているが、本実施の形態では、画像データ以外のデータを教師データとして扱うこともできる。また、本実施の形態は、SVM学習モデルを使ったテキスト分類システム及び音声分類システムにも適用できる。
テキスト分類システム:
本実施の形態が、テキスト分類システムに適用される場合は、図2において、画像教師データ蓄積部12はテキスト教師データ蓄積部となり、画像教師データ候補蓄積部13はテキスト教師データ候補蓄積部となる。また、画像特徴教師データ蓄積部14と画像特徴教師データ候補蓄積部15は、それぞれ、テキスト特徴教師データ蓄積部とテキスト特徴教師データ候補蓄積部とになる。
また、テキスト教師データとしては、分類対象のテキストに対してカテゴリラベル1又は0が付加されたテキストデータが挙げられる。この場合、図2において、特徴計算部11は、テキストデータの特徴を算出する。具体的には、特徴計算部11は、あるテキストに出現する単語の個数及び種類、テキストの作成者といった情報を、特徴量として数値列化する。
本実施の形態におけるテキスト分類システムによれば、テキストの分類精度を向上させることができる。また、テキスト分類システムの具体的な用途としては、メール文書を使ったスパムメールを分類するシステムが挙げられ、スパムメールの分類精度の向上が期待できる。更に、このシステムでは、SVMで分類する対象データはメール文書となり、カテゴリラベル1をスパムメール、カテゴリラベル0を通常メールとすればよい。
音声分類システム:
本実施の形態が、人の音声データを分類する音声分類システムに適用される場合は、図2において、画像教師データ蓄積部12は音声教師データ蓄積部となり、画像教師データ候補蓄積部13は音声教師データ候補蓄積部となる。また、画像特徴教師データ蓄積部14と画像特徴教師データ候補蓄積部15は、それぞれ、音声特徴教師データ蓄積部と音声特徴教師データ候補蓄積部とになる。
また、音声教師データとしては、分類対象の音声に対してカテゴリラベル1又は0が付加された音声データが挙げられる。また、この場合、特徴計算部11は、音声データの特徴を算出する。
具体的には、特徴計算部11は、ある音声データをフーリエ変換し、その際の周波数、音量といった情報を、特徴量として数値列化する。本実施の形態における音声分類システムによれば、音声データの分類精度を向上させることができる。また、音声分類システムの具体的な用としては、コールセンターにおいて顧客の感情を分類するシステムが挙げられる。このシステムでは、カテゴリラベル1を怒っている音声、カテゴリラベル0を通常音声とすればよい。
以上のように、本実施の形態においては、教師データは、特徴量の算出が可能である限り、特に限定されることはない。本実施の形態は、機械学習が必要な種々のシステムに有効である。
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図10に示すステップA1〜A11を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における機械学習装置100と機械学習方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、特徴計算部11、SVM学習部21、SOM学習部22、SVM分類部25、SOM分類部26、学習モデル2次元化部31、教師データ2次元化部32、教師データ候補2次元化部33、及びデータ合成部37として機能し、処理を行なう。
ここで、本実施の形態におけるプログラムを実行することによって、機械学習装置100を実現するコンピュータについて図15を用いて説明する。図15は、本発明の実施の形態機械学習装置を実現するコンピュータの一例を示すブロック図である。
図15に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、特徴計算部と、
前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
前記分類の結果を表す2次元学習モデルを生成する、学習モデル2次元化部と、
を備えることを特徴とする、機械学習装置。
(付記2)
前記2次元マップを用いて、前記第1の数値データに対応する前記区画を特定する、自己組織化マップ分類部と、
前記第1の数値データと、特定された前記区画とを紐付ける、2次元教師データを作成する、教師データ2次元化部と、
を更に備えている、付記1に記載の機械学習装置。
(付記3)
当該機械学習装置が、教師データ候補2次元化部を更に備え、
前記特徴計算部が、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第2の数値データに変換し、
前記自己組織化マップ分類部が、更に、前記2次元マップを用いて、前記第2の数値データに対応する前記区画を特定し、
前記教師データ候補2次元化部は、前記第2の数値データと、特定された前記区画とを紐付ける、2次元教師データ候補を作成する、
付記2に記載の機械学習装置。
(付記4)
当該機械学習装置が、
前記分類の結果を示す前記2次元学習モデルに、前記2次元教師データと、前記2次元教師データ候補とを組み合せて、合成2次元データを作成する、データ合成部と、
前記合成2次元データに基づいて、画面上に、前記分類の結果を示す前記2次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第1の数値データの個数、及び当該区画に紐付けられている前記第1の数値データのラベルの内容を明示する、合成2次元データ提示部と、
を更に備えている付記3に記載の機械学習装置。
(付記5)
前記合成2次元データ提示部が、
表示されている前記区画のいずれかが選択された場合に、
選択された区画に紐付けられている前記第1の数値及び前記第2の数値データを特定し、特定した前記第1の数値データの変換元の教師データと、特定した前記第2の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記4に記載の機械学習装置。
(付記6)
当該機械学習装置が、教師データ改善部を更に備え、
前記教師データ改善部は、対象となる区画に紐付けられている第1の数値データとその周辺に位置する区画に紐付けられている第1の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第1の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、
付記5に記載の機械学習装置。
(付記7)
前記教師データ改善部は、対象となる区画に紐付けられている第1の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第2の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、
付記6に記載の機械学習装置。
(付記8)
(a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
(b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
(c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
(d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
(e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
を有することを特徴とする、機械学習方法。
(付記9)
(f)前記2次元マップを用いて、前記第1の数値データに対応する前記区画を特定する、ステップと、
(g)前記第1の数値データと、特定された前記区画とを紐付ける、2次元教師データを作成する、ステップと、
を更に有する、付記8に記載の機械学習方法。
(付記10)
前記(a)のステップにおいて、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第2の数値データに変換し、
前記(f)のステップにおいて、更に、前記2次元マップを用いて、前記第2の数値データに対応する前記区画を特定し、
当該機械学習方法が、更に、
(g)前記第2の数値データと、特定された前記区画とを紐付ける、2次元教師データ候補を作成する、ステップを有する、
付記9に記載の機械学習方法。
(付記11)
(h)前記分類の結果を示す前記2次元学習モデルに、前記2次元教師データと、前記2次元教師データ候補とを組み合せて、合成2次元データを作成する、ステップと、
(i)前記合成2次元データに基づいて、画面上に、前記分類の結果を示す前記2次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第1の数値データの個数、及び当該区画に紐付けられている前記第1の数値データのラベルの内容を明示する、ステップと、
を更に有する、付記10に記載の機械学習方法。
(付記12)
前記(i)のステップにおいて、表示されている前記区画のいずれかが選択された場合に、選択された区画に紐付けられている前記第1の数値及び前記第2の数値データを特定し、特定した前記第1の数値データの変換元の教師データと、特定した前記第2の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記11に記載の機械学習方法。
(付記13)
(j)対象となる区画に紐付けられている第1の数値データとその周辺に位置する区画に紐付けられている第1の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第1の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、ステップを、
更に有する、付記12に記載の機械学習方法。
(付記14)
(k)対象となる区画に紐付けられている第1の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第2の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、ステップを、
更に有する、付記13に記載の機械学習方法。
(付記15)
コンピュータに、
(a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
(b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
(c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
(d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
(e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
を実行させるプログラム。
(付記16)
前記コンピュータに、更に、
(f)前記2次元マップを用いて、前記第1の数値データに対応する前記区画を特定する、ステップと、
(g)前記第1の数値データと、特定された前記区画とを紐付ける、2次元教師データを作成する、ステップと、
を実行させる、付記15に記載のプログラム。
(付記17)
前記(a)のステップにおいて、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第2の数値データに変換し、
前記(f)のステップにおいて、更に、前記2次元マップを用いて、前記第2の数値データに対応する前記区画を特定し、
当該機械学習方法が、更に、
(g)前記第2の数値データと、特定された前記区画とを紐付ける、2次元教師データ候補を作成する、ステップを有する、
付記16に記載のプログラム。
(付記18)
前記コンピュータに、更に、
(h)前記分類の結果を示す前記2次元学習モデルに、前記2次元教師データと、前記2次元教師データ候補とを組み合せて、合成2次元データを作成する、ステップと、
(i)前記合成2次元データに基づいて、画面上に、前記分類の結果を示す前記2次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第1の数値データの個数、及び当該区画に紐付けられている前記第1の数値データのラベルの内容を明示する、ステップと、
を実行させる、付記17に記載のプログラム。
(付記19)
前記(i)のステップにおいて、表示されている前記区画のいずれかが選択された場合に、選択された区画に紐付けられている前記第1の数値及び前記第2の数値データを特定し、特定した前記第1の数値データの変換元の教師データと、特定した前記第2の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記18に記載のプログラム。
(付記20)
前記コンピュータに、更に、
(j)対象となる区画に紐付けられている第1の数値データとその周辺に位置する区画に紐付けられている第1の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第1の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、ステップを、
実行させる、付記19に記載のプログラム。
(付記21)
前記コンピュータに、更に、
(k)対象となる区画に紐付けられている第1の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第2の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、ステップを、
実行させる、付記20に記載のプログラム。
参考文献1:津田宏治, “サポートベクターマシンとは何か”,電子情報通信学会誌, pp.460-466, 2000-06-25
参考文献2:T.Kohonen, “Self-Organizing Maps”, Springer Series in Information Sciences
参考文献3:藤吉弘亘 , “Gradientベースの特徴抽出 - SIFTとHOG -”, 情報処理学会 研究報告CVIM 160, pp. 211-224, 2007
参考文献4:SHEN Linlin, “Gabor Features and Support Vector Machine for Face Identification” , Biomedical fuzzy and human sciences : the official journal of the Biomedical Fuzzy Systems Association 14(1), pp.61-66, 2009-01-00
参考文献5:井口亮 , 宮本定明 ,“カーネル関数を利用したLVQクラスタリングとSOM” ,知能と情報(日本知能情報ファジィ学会誌) , Vol.17 , No.1 , pp.88-91 ,2005
以上のように、本発明によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。本発明は、機械学習が求められる種々のシステム、例えば、侵入検知システム、テキスト分類システム、音声分類システム等に有用である。
10 前処理部
11 特徴計算部
12 画像教師データ蓄積部
13 画像教師データ候補蓄積部
14 画像特徴教師データ蓄積部
15 画像特徴教師データ候補蓄積部
20 学習部
20a SVM部
20b SOM部
21 SVM学習部
22 SOM学習部
23 SVM学習モデル保持部
24 SOM代表データ保持部24
25 SVM分類部25
26 SOM分類部
30 2次元化部
31 学習モデル2次元化部
32 教師データ2次元化部
33 教師データ候補2次元化部
34 2次元学習モデル保持部
35 2次元教師データ保持部
36 2次元教師データ候補保持部
37 データ合成部
38 合成2次元データ保持部
40 提示部
41 合成2次元データ提示部
42 教師データ改善部
100 機械学習装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (9)

  1. 2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、特徴計算部と、
    前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
    前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
    前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
    前記分類の結果を表す2次元学習モデルを生成する、学習モデル2次元化部と、
    を備えることを特徴とする、機械学習装置。
  2. 前記2次元マップを用いて、前記第1の数値データに対応する前記区画を特定する、自己組織化マップ分類部と、
    前記第1の数値データと、特定された前記区画とを紐付ける、2次元教師データを作成する、教師データ2次元化部と、
    を更に備えている、請求項1に記載の機械学習装置。
  3. 当該機械学習装置が、教師データ候補2次元化部を更に備え、
    前記特徴計算部が、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第2の数値データに変換し、
    前記自己組織化マップ分類部が、更に、前記2次元マップを用いて、前記第2の数値データに対応する前記区画を特定し、
    前記教師データ候補2次元化部は、前記第2の数値データと、特定された前記区画とを紐付ける、2次元教師データ候補を作成する、
    請求項2に記載の機械学習装置。
  4. 当該機械学習装置が、
    前記分類の結果を示す前記2次元学習モデルに、前記2次元教師データと、前記2次元教師データ候補とを組み合せて、合成2次元データを作成する、データ合成部と、
    前記合成2次元データに基づいて、画面上に、前記分類の結果を示す前記2次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第1の数値データの個数、及び当該区画に紐付けられている前記第1の数値データのラベルの内容を明示する、合成2次元データ提示部と、
    を更に備えている請求項3に記載の機械学習装置。
  5. 前記合成2次元データ提示部が、
    表示されている前記区画のいずれかが選択された場合に、
    選択された区画に紐付けられている前記第1の数値及び前記第2の数値データを特定し、特定した前記第1の数値データの変換元の教師データと、特定した前記第2の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
    請求項4に記載の機械学習装置。
  6. 当該機械学習装置が、教師データ改善部を更に備え、
    前記教師データ改善部は、対象となる区画に紐付けられている第1の数値データとその周辺に位置する区画に紐付けられている第1の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第1の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、
    請求項5に記載の機械学習装置。
  7. 前記教師データ改善部は、対象となる区画に紐付けられている第1の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第2の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、
    請求項6に記載の機械学習装置。
  8. (a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
    (b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
    (c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
    (d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
    (e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
    を有することを特徴とする、機械学習方法。
  9. コンピュータに、
    (a)2値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第1の数値データに変換する、ステップと、
    (b)前記教師データを変換して得られた第1の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記2値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
    (c)前記教師データを変換して得られた第1の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された2次元マップに投影し、その際、距離が近い2以上の前記第1の数値データは、近接する又は同一の区画に所属させる、ステップと、
    (d)前記(b)のステップで作成された前記学習モデルを用いて、前記第1の数値データが投影された前記2次元マップの前記代表データを分類する、ステップと、
    (e)前記(d)のステップでの前記分類の結果を表す2次元学習モデルを生成する、ステップと、
    を実行させるプログラム。
JP2014064173A 2014-03-26 2014-03-26 機械学習装置、機械学習方法、及びプログラム Active JP6277818B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014064173A JP6277818B2 (ja) 2014-03-26 2014-03-26 機械学習装置、機械学習方法、及びプログラム
US14/666,882 US20150278710A1 (en) 2014-03-26 2015-03-24 Machine learning apparatus, machine learning method, and non-transitory computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014064173A JP6277818B2 (ja) 2014-03-26 2014-03-26 機械学習装置、機械学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015185149A true JP2015185149A (ja) 2015-10-22
JP6277818B2 JP6277818B2 (ja) 2018-02-14

Family

ID=54190890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014064173A Active JP6277818B2 (ja) 2014-03-26 2014-03-26 機械学習装置、機械学習方法、及びプログラム

Country Status (2)

Country Link
US (1) US20150278710A1 (ja)
JP (1) JP6277818B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102671A (ja) * 2015-12-01 2017-06-08 キヤノン株式会社 識別装置、調整装置、情報処理方法及びプログラム
JP2017107902A (ja) * 2015-12-07 2017-06-15 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP2017107386A (ja) * 2015-12-09 2017-06-15 日本電信電話株式会社 事例選択装置、分類装置、方法、及びプログラム
JP2017204712A (ja) * 2016-05-10 2017-11-16 国立研究開発法人情報通信研究機構 仮想資源自動選択システム及び方法
JP2019091454A (ja) * 2017-11-15 2019-06-13 キヤノンメディカルシステムズ株式会社 データ解析処理装置及びデータ解析処理プログラム
JP2019109924A (ja) * 2019-02-27 2019-07-04 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
WO2020017427A1 (ja) 2018-07-20 2020-01-23 株式会社エヌテック ラベル付き画像データ作成方法、検査方法、プログラム、ラベル付き画像データ作成装置及び検査装置
JP2020042757A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 加工装置、加工方法、加工プログラム、及び検査装置
JP2020101940A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2020154406A (ja) * 2019-03-18 2020-09-24 富士電機株式会社 情報処理装置、判定装置、モデルの学習方法
JP2020165330A (ja) * 2019-03-28 2020-10-08 国立研究開発法人 海上・港湾・航空技術研究所 原動機の状態判断方法及び状態判断プログラム
WO2021260979A1 (ja) * 2020-06-22 2021-12-30 株式会社日立ソリューションズ データ収集システム
US11430241B2 (en) 2018-01-30 2022-08-30 Mitsubishi Electric Corporation Entry field extraction device and computer readable medium
JP7502925B2 (ja) 2020-08-05 2024-06-19 前田建設工業株式会社 安全帯使用状況監視システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017009314A (ja) * 2015-06-17 2017-01-12 株式会社Screenホールディングス 教示データの作成支援方法、作成支援装置、プログラムおよびプログラム記録媒体
JP6377050B2 (ja) * 2015-12-18 2018-08-22 ヤフー株式会社 学習装置、学習方法および学習プログラム
CN106447046B (zh) * 2016-10-17 2019-04-19 深圳市彬讯科技有限公司 一种基于机器学习的户型设计方案评测方法
CN106560704A (zh) * 2016-10-20 2017-04-12 中国计量大学 联合同位素和微量元素检验的武夷岩茶产地鉴别方法
CN108230232B (zh) * 2016-12-21 2021-02-09 腾讯科技(深圳)有限公司 一种图像处理的方法以及相关装置
US10425434B2 (en) * 2017-01-19 2019-09-24 Cisco Technology, Inc. Statistical fingerprinting of network traffic
CN110235146A (zh) * 2017-02-03 2019-09-13 西门子股份公司 用于检测图像中的感兴趣对象的方法和装置
CN109598307B (zh) * 2018-12-06 2020-11-27 北京达佳互联信息技术有限公司 数据筛选方法、装置、服务器及存储介质
JP7151500B2 (ja) * 2019-01-18 2022-10-12 富士通株式会社 学習方法、学習プログラムおよび学習装置
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007527266A (ja) * 2003-07-01 2007-09-27 カーディオマグ イメージング、 インコーポレイテッド 心磁図の分類のための機械学習の使用
JP2007323177A (ja) * 2006-05-30 2007-12-13 Fuji Heavy Ind Ltd 画像処理装置
JP2009297365A (ja) * 2008-06-16 2009-12-24 Olympus Corp 画像処理装置、画像処理方法および画像処理プログラム
US20140067299A1 (en) * 2012-08-29 2014-03-06 Bin Lu System and method for electric load identification and classification employing support vector machine

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129152A1 (en) * 2012-08-29 2014-05-08 Michael Beer Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007527266A (ja) * 2003-07-01 2007-09-27 カーディオマグ イメージング、 インコーポレイテッド 心磁図の分類のための機械学習の使用
JP2007323177A (ja) * 2006-05-30 2007-12-13 Fuji Heavy Ind Ltd 画像処理装置
JP2009297365A (ja) * 2008-06-16 2009-12-24 Olympus Corp 画像処理装置、画像処理方法および画像処理プログラム
US20140067299A1 (en) * 2012-08-29 2014-03-06 Bin Lu System and method for electric load identification and classification employing support vector machine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SWARNAJYOTI PATRA, ET AL.: "A Novel SOM-SVM-Based Active Learning Technique for Remote Sensing Image Classification", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, vol. 52, JPN6017048013, 3 March 2014 (2014-03-03), pages 6899 - 6910, ISSN: 0003702696 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102671A (ja) * 2015-12-01 2017-06-08 キヤノン株式会社 識別装置、調整装置、情報処理方法及びプログラム
US10699102B2 (en) 2015-12-01 2020-06-30 Canon Kabushiki Kaisha Image identification apparatus and image identification method
US10500721B2 (en) 2015-12-07 2019-12-10 Fanuc Corporation Machine learning device, laminated core manufacturing apparatus, laminated core manufacturing system, and machine learning method for learning operation for stacking core sheets
JP2017107902A (ja) * 2015-12-07 2017-06-15 ファナック株式会社 コアシートの積層動作を学習する機械学習器、積層コア製造装置、積層コア製造システムおよび機械学習方法
JP2017107386A (ja) * 2015-12-09 2017-06-15 日本電信電話株式会社 事例選択装置、分類装置、方法、及びプログラム
JP2017204712A (ja) * 2016-05-10 2017-11-16 国立研究開発法人情報通信研究機構 仮想資源自動選択システム及び方法
JP7246898B2 (ja) 2017-11-15 2023-03-28 キヤノンメディカルシステムズ株式会社 データ解析処理装置及びデータ解析処理プログラム
JP2019091454A (ja) * 2017-11-15 2019-06-13 キヤノンメディカルシステムズ株式会社 データ解析処理装置及びデータ解析処理プログラム
US11954598B2 (en) 2017-11-15 2024-04-09 Canon Medical Systems Corporation Matching network for medical image analysis
US11625597B2 (en) 2017-11-15 2023-04-11 Canon Medical Systems Corporation Matching network for medical image analysis
US11430241B2 (en) 2018-01-30 2022-08-30 Mitsubishi Electric Corporation Entry field extraction device and computer readable medium
US11983863B2 (en) 2018-07-20 2024-05-14 Kabushiki Kaisha N-Tech Inspection system using machine learning to label image segments of defects
WO2020017427A1 (ja) 2018-07-20 2020-01-23 株式会社エヌテック ラベル付き画像データ作成方法、検査方法、プログラム、ラベル付き画像データ作成装置及び検査装置
JP7213701B2 (ja) 2018-09-07 2023-01-27 株式会社フジクラ 加工装置、加工方法、加工プログラム、及び検査装置
JP2020042757A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 加工装置、加工方法、加工プログラム、及び検査装置
JP2020101940A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2019109924A (ja) * 2019-02-27 2019-07-04 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理方法、プログラム
JP7435866B2 (ja) 2019-03-18 2024-02-21 富士電機株式会社 情報処理装置、判定装置、モデルの学習方法
JP2020154406A (ja) * 2019-03-18 2020-09-24 富士電機株式会社 情報処理装置、判定装置、モデルの学習方法
JP7423898B2 (ja) 2019-03-18 2024-01-30 富士電機株式会社 情報処理装置、判定装置、モデルの学習方法
JP2020165330A (ja) * 2019-03-28 2020-10-08 国立研究開発法人 海上・港湾・航空技術研究所 原動機の状態判断方法及び状態判断プログラム
JP7349124B2 (ja) 2019-03-28 2023-09-22 国立研究開発法人 海上・港湾・航空技術研究所 原動機の状態判断方法及び状態判断プログラム
JP2022002058A (ja) * 2020-06-22 2022-01-06 株式会社日立ソリューションズ データ収集システム
JP7241718B2 (ja) 2020-06-22 2023-03-17 株式会社日立ソリューションズ データ収集システム
WO2021260979A1 (ja) * 2020-06-22 2021-12-30 株式会社日立ソリューションズ データ収集システム
JP7502925B2 (ja) 2020-08-05 2024-06-19 前田建設工業株式会社 安全帯使用状況監視システム

Also Published As

Publication number Publication date
JP6277818B2 (ja) 2018-02-14
US20150278710A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
JP6277818B2 (ja) 機械学習装置、機械学習方法、及びプログラム
US11023710B2 (en) Semi-supervised hybrid clustering/classification system
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
JP6708385B2 (ja) 識別器作成装置、識別器作成方法、およびプログラム
US11416710B2 (en) Feature representation device, feature representation method, and program
US10423827B1 (en) Image text recognition
CN112287958A (zh) 对数字图像中的对象的颜色进行分类
JP6435740B2 (ja) データ処理システム、データ処理方法およびデータ処理プログラム
JP2019083002A (ja) トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
US20170213112A1 (en) Utilizing deep learning for automatic digital image segmentation and stylization
US11887215B2 (en) Image processing apparatus and method for style transformation
JP2020515983A (ja) 対象人物の検索方法および装置、機器、プログラム製品ならびに媒体
US20200193661A1 (en) Signal change apparatus, method, and program
US11803971B2 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
US11605002B2 (en) Program, information processing method, and information processing apparatus
US11532036B2 (en) Digital image ordering using object position and aesthetics
CN114120349B (zh) 基于深度学习的试卷识别方法及系统
US20210056429A1 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
JP2012074759A (ja) コンテンツ要約装置およびコンテンツ要約表示装置
WO2020054551A1 (ja) 情報処理装置、情報処理方法、プログラム
JP2007115245A (ja) データの大域的構造を考慮する学習機械
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
US20230132770A1 (en) Learning apparatus, learning method, object detection apparatus, object detection method, learning support system and learning support method
WO2021235247A1 (ja) 学習装置、生成方法、推論装置、推論方法、およびプログラム
JP6995262B1 (ja) 学習システム、学習方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R150 Certificate of patent or registration of utility model

Ref document number: 6277818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150