JP2015185149A

JP2015185149A - 機械学習装置、機械学習方法、及びプログラム

Info

Publication number: JP2015185149A
Application number: JP2014064173A
Authority: JP
Inventors: 大地久田; Daichi HISADA
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-10-22
Anticipated expiration: 2034-03-26
Also published as: US20150278710A1; JP6277818B2

Abstract

【課題】教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減し得る、機械学習装置、機械学習方法、及びプログラムを提供する。
【解決手段】機械学習装置１００は、２値のいずれかがラベルとして付与された教師データを第１の数値データに変換する特徴計算部１１と、第１の数値データに基づいて、ＳＶＭを用いてラベルの判断基準を学習し、学習結果を示す学習モデルを作成するＳＶＭ学習部２１と、第１の数値データを自己組織化マップ処理によってマトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の第１の数値データは近接する区画に所属させるＳＯＭ自己組織化マップ学習部２２と、学習モデルを用いて２次元マップの区画及び代表データを分類するＳＶＭ分類部２５と、分類の結果を表す２次元学習モデルを生成する学習モデル２次元化部３１とを備える。
【選択図】図４

Description

本発明は、機械学習装置、機械学習方法、及びこれらを実現するためのプログラムに関する。

機械学習とは、人工知能の一種であり、コンピュータにおいて「学習」を行うことをいう。機械学習によれば、あるデータ集合に対し、その特性に対する情報を推測することができるので、機械学習から与えられた情報により、将来の値に対する予測をすることが可能となる（例えば、非特許文献１参照）。

また、機械学習においてユーザから与えられたデータ集合の特性を解析することを、「機械学習器が学習する」という。「機械学習器」とは何らかの機械学習手法が実装されたシステムのことを意味する。ここで、図１６〜図１８を用いて、従来からの機械学習手法が実装されたシステムについて説明する。図１６は、従来からの機械学習手法が実装されたシステムの利用例１を示す図である。図１７は、従来からの機械学習手法が実装されたシステムの利用例２を示す図である。図１８は、従来からの機械学習手法が実装されたシステムの利用例３を示す図である。

利用例１では、図１６（ａ）に示すように、機械学習器は、現在と２４時間前との気温、湿度、風向き、及び気圧等のセンサデータを学習する。そして、図１６（ｂ）に示すように、気温、湿度、風向き、及び気圧等のセンサデータが入力されると、機械学習器は、２４時間後の予想気温を出力する。

利用例２では、図１７（ａ）に示すように、機械学習器は、メール文書に含まれる単語の出現頻度を学習する。そして、図１７（ｂ）に示すように、メールが入力されると、機械学習器は、入力されたメールが、スパムメールとそれ以外のメールとのいずれであるかを分類する。

利用例３では、図１８（ａ）に示すように、機械学習器は、顧客の購買情報を学習する。そして、図１８（ｂ）に示すように、ある顧客の購買情報が入力されると、機械学習器は、入力された顧客を、その購買傾向を表す顧客カテゴリに分類する。

また、このような機械学習は、教師なし機械学習と教師あり機械学習との２つに分けることが出来る。このうち、教師なし機械学習は、ユーザが与えたデータのみから学習を行う機械学習である。一方、教師あり機械学習は、教師データを用いた学習を行う機械学習である。また、「教師データ」とは、学習の対象となるデータであって、ユーザが判断した値が付加されたデータのことをいう。

即ち、この２つの機械学習の相違点は、あるデータに対して機械学習器の出力すべき正解値を、ユーザが機械学習器に対して教えているか否かにある。従って、解析対象のデータに対して、ユーザが何らかの知見を有していて、機械学習から受け取りたい値が明確な場合は、教師あり機械学習が利用される。一方、解析対象のデータについて、ユーザが知識を有しておらず、ユーザにおいて機械学習器を使ってどのような解析を行えばよいかわからない場合は、教師なし機械学習が利用される。

そして、教師あり機械学習の利用例としては、上述の図１６（ａ）及び（ｂ）に示した２４時間後の予想気温を出力するシステムが挙げられる。このシステムの場合は、過去のセンサデータに対して、既に観測されている２４時間後のデータを付加し、得られたデータが教師データとされる。この教師データを教師あり機械学習器に与えることより、機械学習器は教師データの傾向を学習する。このようにして、学習した機械学習器を用いることにより、将来の気温を予測することが出来る。

また、教師なし機械学習の利用例としては、上述の図１８（ａ）及び（ｂ）に示した顧客カテゴリの分類システムが挙げられる。このシステムの場合は、教師なし機械学習器に各顧客の購買情報を与えると、機械学習器は購買情報の傾向を学習する。機械学習器が学習した購買情報の傾向を用いることにより顧客をカテゴリに分類できる。

また、とりわけ教師あり機械学習を利用したシステムにおいて、各種処理の精度を高めるためには、様々な状況に対応した教師データを大量に用意し、機械学習器に学習させる必要がある。しかしながら、あらゆる状況を網羅するように大量の種々の教師データを用意するのは、手間がかかり、困難である。

このため、例えば、非特許文献２及び３は、教師あり機械学習によって取得されたサポートベクトルマシン（ＳＶＭ：Support Vector Machine）の学習モデルをユーザに図示する手法が提案されている。この手法では、分類結果と教師データとが２次元平面上に表示されるため、ユーザは、実際にどのような分類がなされているかを把握でき、効率的に教師データを用意することができると考えられる。

また、特許文献１は、教師あり機械学習器を用いて、代表的なデータに対する分類結果を提示し、ユーザの判断に合わない分類結果を修正した上で再学習を行うことによって、教師あり機械学習器が学習するデータ傾向を修正する手法を開示している。特許文献１に開示された手法によれば、既に学習させた教師データのカテゴリラベルを修正することにより、機械学習器が予測する値をユーザが望むように修正することが出来る。更に、特許文献２は、少数の教師データを用いて自動的に教師データを作成する手法を開示し、特許文献３は、機械学習器の学習結果に基づいて、不要な教師データを削除する手法を開示している。

特開２００９−０７０２８４号公報特開２０１３−１２５３２２号公報特開２００５−１８１９２８号公報

Toby Segaran, "Collective Intelligence", REILLY, pp.3, 2007 Xiaohong Wang, Sitao Wu, Xiaoru Wang, and Qunzhan Li, "SVMV - A Novel Algorithm for the Visualization of SVM Classification Results", Advances in Neural Networks - ISNN 2006 Lecture Notes in Computer Science, Volume 3971, 2006, pp 968-973 "How to Visualize Large Data Sets?", Advances in Self-Organizing Maps Advances in Intelligent Systems and Computing, Volume 198, 2013, pp 1-12

ところで、上述したように、教師あり機械学習においては、「大量の種々の教師データを用意するのは、手間がかかり、困難である」という問題がある。そして、この問題は、教師あり機械学習を利用したシステムにおける処理精度を高めつつ、解決する必要がある。従って、この問題の根本的解決のためには、教師あり機械学習器が学習したデータの傾向をユーザが確認できるようにし、その上で、ユーザに、学習に不足している教師データの追加を行わせることが必要となる。

しかしながら、非特許文献２及び３に開示された手法では、不適切な教師データは提示されるので、ユーザは不適切な教師データを削除できるが、不足している教師データは提示されないので、ユーザは、不足している教師データを追加することは不可能である。また、特許文献１に開示された手法では、不適切な教師データ及び不足している教師データの両方が提示されず、更に、ユーザは、教師データの追加及び削除も不可能である。また、特許文献２に開示された手法では、教師データを追加できるが、不適切な教師データを作ってしまう恐れがある。更に、特許文献３に開示された手法では、ユーザによる教師データの追加が不可能である。

このように、非特許文献１〜２、特許文献１〜３に開示された手法では、教師あり機械学習器が学習したデータの傾向をユーザが確認でき、その上で、ユーザが、学習に不足している教師データを追加する、ことは不可能である。つまり、非特許文献１〜２、特許文献１〜３に開示された手法では、上記問題の根本的解決は不可能である。

本発明の目的の一例は、上記問題を解消し、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減し得る、機械学習装置、機械学習方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における機械学習装置は、２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、特徴計算部と、
前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
前記分類の結果を表す２次元学習モデルを生成する、学習モデル２次元化部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一側面における機械学習方法は、
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を実行させることを特徴とする。

以上のように、本発明によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。

図１は、従来からのサポートベクトルマシンによる処理を概念的に示す図である。図２は、従来からの自己組織化マップを概念的に示す図である。図３は、本発明において学習されたデータの傾向の一例を示す図である。図４は、本発明の実施の形態における機械学習装置の概略構成を示すブロック図である。図５は、本発明の実施の形態における機械学習装置の構成を具体的に示すブロック図である。図６（ａ）は、本実施の形態で用いられる画像教師データの一例を示す図であり、図６（ｂ）は、本実施の形態で用いられる画像教師データ候補の一例を示す図である。図７（ａ）は、本実施の形態で用いられる画像特徴教師データの一例を示す図であり、図７（ｂ）は、本実施の形態で用いられる画像特徴教師データ候補の一例を示す図であり、図７（ｃ）は、本実施の形態で用いられるＳＯＭ代表データの一例を示す図である。図８（ａ）は、本実施の形態で用いられる２次元教師データの一例を示す図であり、図８（ｂ）は、本実施の形態で用いられる２次元教師データ候補の一例を示す図であり、図８（ｃ）は、本実施の形態で用いられる合成２次元データの一例を示す図である。図９は、本実施の形態で用いられる合成２次元データの一例を示す図である。図１０は、本発明の実施の形態における機械学習装置の動作を示すフロー図である。図１１は、本発明の実施の形態で行われる各フェーズを概略的に示す図である。図１２は、Gaborフィルタが適用される前の画像と適用された後の画像とを示す図である。図１３は、本発明の実施の形態において可視化された合成２次元データの一例を示す図である。図１４は、図１３に示す合成２次元データにおいて、画像教師データの修正、削除又は追加が必要な場合の一例を示す図である。図１５は、本発明の実施の形態機械学習装置を実現するコンピュータの一例を示すブロック図である。図１６は、従来からの機械学習手法が実装されたシステムの利用例１を示す図である。図１７は、従来からの機械学習手法が実装されたシステムの利用例２を示す図である。図１８は、従来からの機械学習手法が実装されたシステムの利用例３を示す図である。

（発明の概要）
本発明の主な特徴は、教師あり機械学習手法であるサポートベクトルマシン（ＳＶＭ：Support Vector Machine）に、教師なし機械学習手法である自己組織化マップ（ＳＯＭ：Self-Organizing Maps）を組み合わせることにある。

ＳＶＭは、教師データを用いて基本的に２種類のデータの分類基準を学習する（後述の参考文献１参照）。ＳＶＭは、図１に示すように、２種類のデータの間の距離を最大化するような分類境界を学習する。図１は、従来からのサポートベクトルマシンによる処理を概念的に示す図である。また、ＳＶＭは、複雑な分類境界を持つデータを、簡単な分類基準になるように変換することが出来る。更に、ＳＶＭでは、簡単な分類基準を作成するために、データを高次元空間に変換するカーネル関数が用いられている。

ＳＯＭは、脳神経系をモデル化した機械学習手法であるニューラルネットワークの一種であり、教師データを用いることなく、高次元のデータをデータ間の距離関係を維持したまま２次元マップに投影できる手法である（後述の参考文献２参照）。本発明では、高次元データとＳＶＭの判断基準とを２次元化するためにＳＯＭが用いられる。

ＳＯＭは、図２に示すように、マトリクス状の区画とその区画に所属する代表データとにより構成されている。図２は、従来からの自己組織化マップを概念的に示す図である。図２に示すＳＯＭにデータが入力されると、そのデータ傾向が解析され、解析結果に基づいて、入力されたデータの全部又は一部は、２次元マップ上のいずれかの区画の代表データとして投影される。

また、この時、距離の近い（似通った）２以上のデータは、近くの区画に所属すると計算され、距離の遠い（似ていない）２以上のデータは、離れた区画に所属すると計算される。ＳＯＭの各区画は、２次元平面上にあるため、区画を２次元座標であると捉えると、データを２次元平面のマップに投影することになる。

また、ＳＯＭにおいてデータ間の距離定義は、２つのデータ間の距離が計算できれば基本的には何でも良い。距離定義の例としては、ユークリッド距離、サイン距離、マンハッタン距離等が挙げられる。なお、例えば、画像を分類する際に用いるＳＶＭが、画像を分類する際に、距離関数であるカーネル関数を使用するのであれば、ＳＯＭの距離定義としても、カーネル関数が用いられていても良い。

また、本発明の特徴としては、２次元表示したデータ傾向を用いて、不足している教師データの推定を容易にすることも挙げられる。つまり、２次元マップ上の教師データが不足している領域、言い換えると、２次元マップ上で疎となっている領域について、カテゴリラベルの付いていないデータを抽出し、これを提示することにより、不足している教師データの追加を容易にする。

更に、本発明の特徴としては、２次元表示したデータ傾向を用いて、ユーザの付けたカテゴリラベルが間違いである可能性が有る場合に、該当する教師データを検出することも挙げられる。この特徴により、ユーザにおける教師データの修正及び削除は容易なものとなる。

具体的には、述した特徴により、例えば、図３に示すように、機械学習器が学習したデータの傾向を２次元座標上の曲線を使って表すことが可能となる。この場合、画像教師データが不足している領域をユーザが見て確認でき、その領域にある画像を画像教師データに追加出来る。図３は、本発明において学習されたデータの傾向の一例を示す図である。

また、ユーザは、このように機械学習器が学習したデータ傾向を確認できるので、分類精度劣化の原因となる不適切な教師データを修正又は削除できる。なお、不適切な教師データとは、ユーザにもカテゴリの判断がつかないような教師データ、ユーザがカテゴリラベルを間違えて付与した教師データ等である。このように、機械学習器が学習したデータ傾向をユーザが確認できるので、ユーザは、教師データについては、追加、修正、又は削除のみを行えば良く、効率的に教師データを用意することができる。

なお、従来においては、機械学習器が学習したデータ傾向を図３のように図示して、ユーザに確認を行わせることは不可能である。これは、機械学習器の学習するデータ傾向は非常に次元の多い数値データであり、本発明を用いずに、データ傾向を、ユーザの理解しやすい２次元座標で表現することは不可能だからでる。そのため、従来においては、大量の教師データをユーザが作成し、これを機械学習器に与えて学習させ、機械学習器の検出精度が悪ければ、再度大量の教師データを作成して検出精度を向上させる必要がある。従来においては、効率的に教師データを用意することは極めて困難である。

（実施の形態）
以下、本発明の実施の形態における、機械学習装置、機械学習方法、及びプログラムについて、図４〜図１５を参照しながら説明する。

［装置構成］
最初に、図４を用いて、本発明の実施の形態における機械学習装置の概略構成について説明する。図４は、本発明の実施の形態における機械学習装置の概略構成を示すブロック図である。

図１に示す本実施の形態における機械学習装置１００は、サポートベクトルマシンに、自己組織化マップを組み合わせて構築されている。図１に示すように、機械学習装置１００は、特徴計算部１１と、サポートベクトルマシン学習部２１と、自己組織化マップ学習部２２と、サポートベクトルマシン分類部２３と、学習モデル２次元化部３１とを備えている。なお、以降においては、サポートベクトルマシンは「ＳＶＭ」と表記し、自己組織化マップは「ＳＯＭ」と表記する。

特徴計算部１１は、２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する。ＳＶＭ学習部２１は、教師データを変換して得られた第１の数値データに基づいて、ＳＶＭを用いて、ラベルにおける２値の判断基準を学習し、学習結果を示す学習モデルを作成する。

ＳＯＭ学習部２２は、教師データを変換して得られた第１の数値データを、ＳＯＭ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影する。また、ＳＯＭ学習部２２は、その際、距離が近い２以上の第１の数値データは、近接する区画に所属させる。

ＳＶＭ分類部２３は、ＳＶＭ学習部２１によって作成された学習モデルを用いて、第１の数値データが投影された２次元マップの区画及び代表データを分類する。学習モデル２次元化部３１は、分類の結果を示す２次元学習モデルを生成する。

このように、本実施の形態における機械学習装置１００では、ユーザは、２次元学習モデルを用いることで、機械学習器が学習したデータ傾向を確認できるので、修正すべき教師データ、削除すべき教師データ、及び追加すべき教師データを簡単に把握できる。従って、機械学習装置１００によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。

続いて、図５〜図９を用いて、本発明の実施の形態における機械学習装置の構成を更に具体的に説明する。図５は、本発明の実施の形態における機械学習装置の構成を具体的に示すブロック図である。

また、以下の説明では、教師データとしては、ユーザが０又は１のカテゴリラベルを付与した画像データが用いられるとする。また、画像データにカテゴリラベルを付加して得られた教師データを「画像教師データ」と表記する。

図２に示すように、本実施の形態における機械学習装置１００は、主に、前処理部１０と、学習部２０と、２次元化部３０と、提示部４０とを備えている。以下、各部について具体的に説明する。

図５に示すように、前処理部１０は、特徴計算部１１と、画像教師データ蓄積部１２と、画像教師データ候補蓄積部１３と、画像特徴教師データ蓄積部１４と、画像特徴教師データ候補蓄積部１５とを備えている。前処理部１０は、この構成により、画像教師データと、画像教師データ候補とを、サポートベクトルマシンと自己組織化マップとでの学習に利用できる数値データへ変換する。

画像教師データ蓄積部１２は、画像データに対して、ユーザが、０又は１のカテゴリラベルを付加したデータを、画像教師データとして蓄積する。画像教師データにおいては、ユーザの手作業によってカテゴリラベルが付加されているため、不適切なカテゴリラベルが付けられている可能性がある。本実施の形態では、後述するように、画像教師データ蓄積部１２に蓄積されている画像教師データの中から、ＳＶＭの学習に不適切な画像教師データがユーザに提示され、ユーザに対して、この画像教師データの修正又は削除が促される。

画像教師データ候補蓄積部１３は、ユーザによってカテゴリラベルが付加されていない画像データを、画像教師データ候補として蓄積する。理想的には、全ての画像データを画像教師データとするべきであるが、画像データ量が多い場合は不可能である。そのため、本実施の形態では、ＳＶＭの学習に不足している画像教師データを補填するため、画像教師データ候補がユーザに提示され、ユーザに対して、カテゴリラベルの付加が促される。

ここで、図６を用いて、画像教師データと画像教師データ候補の具体例について説明する。図６（ａ）は、本実施の形態で用いられる画像教師データの一例を示す図であり、図６（ｂ）は、本実施の形態で用いられる画像教師データ候補の一例を示す図である。

図６の例では、画像データは、侵入検知システムの判断用のデータである。図６（ａ）に示すように、画像教師データには、カテゴリラベル「１」を侵入とし、カテゴリラベル「０」を非侵入とした、ラベルが付与されている。一方、図６（ｂ）に示すように、画像教師データ候補には、ラベルは付与されていない。

特徴計算部１１は、上述したように、画像教師データ蓄積部１２に蓄積されている画像教師データ（図６（ａ）参照）を、ＳＶＭとＳＯＭとが学習することができる第１の数値データ（以下「画像特徴教師データ」と表記する。）に変換する。また、特徴計算部１１は、更に、画像教師データ候補蓄積部１３に蓄積されている画像教師データ候補（図６（ｂ）参照）を、第２の数値データ（以下「画像特徴教師データ候補」と表記する。）に変換する。

画像特徴教師データ蓄積部１４は、特徴計算部１１による変換によって得られた画像特徴教師データを蓄積する。画像特徴教師データ候補蓄積部１５は、特徴計算部１１による変換によって得られた画像特徴教師データ候補を蓄積する。なお、画像特徴教師データ、画像特徴教師データ候補の具体例については、図７を用いて後述する。

また、図５に示すように、学習部２０は、ＳＶＭ部２０ａとＳＯＭ部２０ｂとを備えている。学習部２０は、この構成により、前処理部１０によって蓄積された画像特徴教師データを使ってＳＶＭとＳＯＭとを学習する。また、学習部２０は、学習したＳＶＭを使って、後述するＳＯＭ代表データを分類し、更に、分類されたＳＯＭ代表データ（後述の図７（ｃ）参照）を使って、画像特徴教師データと画像特徴教師データ候補とを分類する。

ＳＶＭ部２０ａは、ＳＶＭ学習部２１、ＳＶＭ学習モデル保持部２３、及びＳＶＭ分類部２５とを備えている。ＳＶＭ部２０ａは、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データ（後述の図７（ａ）参照）を用いて、カテゴリ０と１との分類判断基準を学習し、画像教師データ（図６（ａ））を分類する。

ＳＶＭ学習部２１は、本実施の形態では、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データを入力として、ＳＶＭを用いて、カテゴリ０と１との判断基準を学習する。ＳＶＭ学習部２１は、学習した結果としてＳＶＭ学習モデルを出力する。ここで、ＳＶＭ学習モデルとはＳＶＭが学習した分類基準のことである。

ＳＶＭ学習モデル保持部２３は、ＳＶＭ学習部２１から出力された、カテゴリ０と１との判断基準、即ち、ＳＶＭ学習モデルを保持する。ＳＶＭ学習モデルは、後述するＳＯＭ代表データのカテゴリラベルの分類に用いられる。

ＳＶＭ分類部２５は、本実施の形態では、ＳＶＭ学習モデル保持部２３によって保持されているＳＶＭ学習モデルを用いて、後述のＳＯＭ代表データ（後述の図７（ｃ）参照）を、カテゴリ０と１とに分類する。ＳＶＭ学習モデルは、本発明ではＳＯＭ代表データ（図１０、１００３）を分類する際に用いられる。

また、ＳＯＭ部２０ｂは、ＳＯＭ学習部２２と、ＳＯＭ代表データ保持部２４と、ＳＯＭ分類部２６とを備えている。ＳＯＭ部２０ａは、ＳＯＭ代表データ（後述の図７（ｃ）参照）を計算する。ＳＯＭ代表データは、画像特徴教師データ（後述する図７（ａ）参照）と画像特徴教師データ候補（後述する図７（ｂ）参照）とを、２次元データに変換する際に使用されるデータである。ＳＯＭ部２０ａは、各データの所属区画を特定するため、ＳＶＭの分類基準、画像教師データ、及び画像教師データ候補の可視化が可能となる。

ＳＯＭ学習部２２は、本実施の形態では、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データを、ＳＯＭ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影して、ＳＯＭを学習する。ＳＯＭ学習部２２は、ＳＯＭの学習の後、画像特徴教師データが投影された２次元マップから、ＳＯＭ代表データを作成し、これを出力する。

ＳＯＭ代表データ保持２４部は、ＳＯＭ学習部２２によって出力されたＳＯＭ代表データを保持する。ＳＯＭ代表データは、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データと、画像特徴教師データ候補蓄積部１５に蓄積されている画像特徴教師データ候補との２次元マップ上の所属区画の特定に用いられる。

ＳＯＭ分類部２６は、ＳＯＭ代表データを用いて、各画像特徴教師データに対応する２次元マップ上の区画を特定する。具体的には、ＳＯＭ分類部２６は、画像特徴教師データとの距離が最も小さくなるＳＯＭ代表データを求め、求めたＳＯＭ代表データが所属する区画を特定する。また、ＳＯＭ分類部２６は、上記と同様に、ＳＯＭ代表データを用いて、各画像特徴教師データ候補に対する区画も特定する。

ここで、図７を用いて、画像特徴教師データ、画像特徴教師データ候補、及びＳＯＭ代表データの具体例について説明する。図７（ａ）は、本実施の形態で用いられる画像特徴教師データの一例を示す図であり、図７（ｂ）は、本実施の形態で用いられる画像特徴教師データ候補の一例を示す図であり、図７（ｃ）は、本実施の形態で用いられるＳＯＭ代表データの一例を示す図である。

図７（ａ）に示すように、画像特徴教師データは、画像データ毎の画像特徴量とカテゴリラベルとで構成された数列データである。一方、図７（ｂ）に示すように、画像特徴教師データ候補は、画像データ毎の画像特徴量のみで構成された数値データである。また、図７（ｃ）に示すように、ＳＯＭ代表データは、２次元マップを構成する区画毎の代表データで構成された数値データである。図７（ｃ）の例では、各区画に投影された画像特徴教師データの画像特徴量が、各代表データとなっている。また、このため、画像特徴量が同一の画像特徴教師データが複数存在する場合、これらの画像特徴教師データは同じ区画に所属することになる。

また、図５に示すように、２次元化部３０は、学習モデル２次元化部３１と、教師データ２次元化部３２と、教師データ候補２次元化部３３と、２次元学習モデル保持部３４と、２次元教師データ保持部３５と、２次元教師データ候補保持部３６と、データ合成部３７と、合成２次元データ保持部３８とを備えている。

学習モデル２次元化部３１は、上述したように、ＳＶＭ分類部２５による分類の結果を表す、２次元学習モデルを生成する。具体的には、学習モデル２次元化部３１は、ＳＶＭ分類部２６が、ＳＶＭ学習モデルとＳＯＭ代表データとを用いて、画像特徴教師データを分類することによって取得した、カテゴリ０、１の分類基準を２次元化し、これによって２次元学習モデル（後述の図８（ｃ）参照）を作成する。

教師データ２次元化部３２は、画像特徴教師データと、ＳＯＭ分類部２６によって特定された所属区画とを紐付けて、２次元教師データ（後述の図８（ａ）参照）を作成する。また、作成された２次元教師データは、２次元教師データ保持部３５に保持される。

教師データ候補２次元化部３３は、画像特徴教師データ候補と、ＳＯＭ分類部２６によって特定された所属区画とを紐付けて、２次元教師データ候補（後述の図８（ｂ）を参照）を作成する。また、作成された２次元教師データ候補は、２次元教師データ候補保持部３６に保持される。

２次元学習モデル保持部３４は、学習モデル２次元化部３１によって作成された２次元学習モデル（後述の図８（ｃ）参照）を保持する。２次元教師データ保持部３５は、教師データ２次元化部３２によって作成された２次元化教師データ（後述の図８（ａ）参照）を保持する。２次元教師データ候補保持部３６は、教師データ候補２次元化部３３によって作成された２次元化教師データ候補（後述の図８（ｂ）参照）を保持する。

データ合成部３７は、２次元学習モデルに、２次元教師データと、２次元教師データ候補とを組み合せて、合成２次元データ（後述の図９参照）を作成する。また、データ合成部３７によって作成された合成２次元データは、合成２次元データ保持部３８に保持される。

また、合成２次元データは、後述する合成２次元データ提示部４１が、２次元学習モデルと、修正又は削除の対象となる画像教師データと、追加の対象となる画像教師データ候補とを、画面上に提示する際に用いられる。

ここで、図８を用いて、２次元教師データ、２次元教師データ候補、及び２次元学習モデルについて説明し、図９を用いて、合成２次元データについて説明する。図８（ａ）は、本実施の形態で用いられる２次元教師データの一例を示す図であり、図８（ｂ）は、本実施の形態で用いられる２次元教師データ候補の一例を示す図であり、図８（ｃ）は、本実施の形態で用いられる合成２次元データの一例を示す図である。図９は、本実施の形態で用いられる合成２次元データの一例を示す図である。

図８（ａ）に示すように、２次元教師データは、画像教師データ毎の、画像データの名称、カテゴリラベル、及び所属する区画の情報によって構成されている。また、図８（ｂ）に示すように、２次元教師データ候補は、画像教師データ候補毎の、画像データの名称及び所属する区画の情報によって構成されている。更に、図８（ｃ）に示すように、２次元学習モデルは、区画毎の、代表データ及びカテゴリラベルによって構成されている。また、図９に示すように、合成２次元データは、ＳＯＭ代表データ毎の、カテゴリラベル、対応する区画に所属する画像特徴教師データの名称、対応する区画に所属する画像特徴教師データ候補の名称で構成されている。

また、図５に示すように、提示部４０は、合成２次元データ提示部４１と、教師データ改善部４２とを備えている。提示部４０は、この構成により、画像教師データを用いて作成したＳＶＭ学習モデルと、画像教師データと、画像教師データ候補とを可視化し、ユーザに対して、画像教師データの修正、削除、又は追加を促すことができる。

合成２次元データ提示部４１は、合成２次元データ（図９参照）に基づいて、ＳＶＭの学習状況を可視化して、ユーザに提示する。具体的には、合成２次元データ提示部４１は、合成２次元データに基づいて、画面上に、２次元学習モデル（図８（ｃ）参照）の区画を表示させる。また、合成２次元データ提示部４１は、その際、各区画において、分類の結果、各区画に紐付けられている画像特徴教師データの個数、及び区画に紐付けられている画像特徴教師データのラベルの内容を明示する。

また、合成２次元データ提示部４１は、表示されている区画のいずれかが選択された場合は、選択された区画に紐付けられている画像特徴教師データ及び画像特徴教師データ候補を特定する。そして、合成２次元データ提示部４１は、特定した画像特徴教師データの変換元の教師データと、特定した画像特徴教師データ候補の変換元の教師データ候補とを、画面上に表示させる。

教師データ改善部４２は、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとを対比する。そして、教師データ改善部４２は、対比の結果に基づいて、画面上で、ユーザに対して、対象となる区画に紐付けられている画像特徴教師データの変換元の画像教師データに対する、削除又はラベルの修正を指示する。

また、教師データ改善部４２は、対象となる区画に紐付けられている画像特徴教師データの個数が閾値以下である場合は、対象となる区画に紐付けられている画像特徴教師データ候補の変換元の画像教師データ候補を、画面上に表示させる。そして、教師データ改善部４２は、ユーザに対して、表示されている画像教師データ候補を画像教師データとして追加するように指示する。

［装置動作］
次に、本発明の実施の形態における機械学習装置１００の動作について図１０を用いて説明する。図１０は、本発明の実施の形態における機械学習装置の動作を示すフロー図である。以下の説明においては、適宜図４〜図９を参酌する。また、本実施の形態では、機械学習装置１００を動作させることによって、機械学習方法が実施される。よって、本実施の形態における機械学習方法の説明は、以下の機械学習装置１００の動作説明に代える。

まず、前提として、ユーザは、大量の画像データを用意し、その内の一部について、自身の判断に基づいて、０か１のカテゴリラベルを付加し、カテゴラリラベルが付加された画像データを画像教師データとする。また、ユーザは、カテゴリラベルを付加されなかった画像データを画像教師データ候補とする。そして、ユーザは、端末装置等を用いて、画像教師データ及び画像教師データ候補を、機械学習装置１００に入力する。

次に、図１０に示すように、機械学習装置１００は、画像教師データ及び画像教師データ候補の入力を受け付けると、入力された画像教師データを画像教師データ蓄積部１２に蓄積し、画像教師データ候補を画像教師データ候補蓄積部１３に蓄積する（ステップＡ１）。

次に、特徴計算部１１は、画像教師データ蓄積部１２に蓄積されている画像教師データを画像特徴教師データに変換し、画像教師データ候補蓄積部１３に蓄積されている画像教師データ候補を画像特徴教師データ候補に変換する（ステップＡ２）。また、特徴計算部１１は、画像特徴教師データを、画像特徴教師データ蓄積部１４に蓄積させ、画像特徴教師データ候補を、画像特徴教師データ候補蓄積部１５に蓄積させる。

次に、ＳＶＭ学習部２１は、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データを入力として、ＳＶＭを用いて、カテゴリ０と１との判断基準を学習する（ステップＡ３）。また、ＳＶＭ学習部２１から出力されたカテゴリ０と１との判断基準、即ち、ＳＶＭ学習モデルは、ＳＶＭ学習モデル保持部２３に保持される。

次に、ＳＯＭ学習部２２は、画像特徴教師データ蓄積部１４に蓄積されている画像特徴教師データを、ＳＯＭ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影して、ＳＯＭを学習する（ステップＡ４）。また、ＳＯＭ学習部２２は、２次元マップからＳＯＭ代表データを作成し、これを、ＳＯＭ代表データ保持２４部に出力して保持させる。

次に、ＳＯＭ分類部２６は、ＳＯＭ代表データを用いて、画像特徴教師データが対応する２次元マップ上の区画と、画像特徴教師データ候補が対応する２次元マップ上の区画とを特定する（ステップＡ５）。

次に、ＳＶＭ分類部２５は、ＳＶＭ学習モデル保持部２３によって保持されているＳＶＭ学習モデルを用いて、ステップＡ４で作成されたＳＯＭ代表データを、カテゴリ０と１とに分類する（ステップＡ６）。

次に、学習モデル２次元化部３１は、ステップＡ６における分類の結果を表す２次元学習モデルを作成する（ステップＡ７）。作成された２次元学習モデル（の図８（ｃ）参照）は、学習モデル２次元化部３１によって保持される。

次に、教師データ２次元化部３２は、画像教師データと、ステップＡ５で特定された所属区画とを紐付けて、２次元教師データを作成する（ステップＡ８）。また、ステップＡ８では、教師データ候補２次元化部３３が、画像特徴教師データ候補と、ステップＡ５で特定された所属区画とを紐付けて、２次元教師データ候補も作成する。また、２次元教師データは、２次元教師データ保持部３５に保持され、２次元教師データ候補は、２次元教師データ候補保持部３６に保持される。

次に、データ合成部３７は、２次元学習モデルに、２次元教師データと、２次元教師データ候補とを組み合せて、合成２次元データ（図９参照）を作成する（ステップＡ９）。

次に、合成２次元データ提示部は、合成２次元データ（図１２）に基づいて、ＳＶＭの学習状況を可視化して、ユーザに提示する（ステップＡ１０）。具体的には、合成２次元データ提示部４１は、画面上に、２次元学習モデル（図８（ｃ）参照）の区画を表示させる。

次に、教師データ改善部４２は、教師データについて、削除、修正、追加が必要かどうかを判定する（ステップＡ１１）。ステップＡ１１の判定の結果、教師データについて、削除、修正、追加が必要でない場合は、機械学習装置１００における処理は終了する。

一方、ステップＡ１１の判定の結果、教師データについて、削除、修正、追加が必要である場合は、教師データ改善部４２は、そのことを画面上に提示して、ユーザに指示する（ステップＡ１２）。ステップＡ１２の実行後に、ユーザによって、削除、修正、追加が行われた場合は、再度ステップＡ３が実行される。

その後、本実施の形態では、最終的に得られたＳＶＭ学習モデルを用いて、侵入検知システムに適用可能な画像分類システムが構築される。

一般に、画像分類システムにおいてカテゴリ分類の精度を高めたい場合、同じ状況の画像だけでなく様々な状況の画像にカテゴリラベルを付けた画像教師データを大量に用意し、機械学習器に学習させる必要がある。しかし、あらゆる状況の画像を網羅的に収集し大量の画像教師データを用意するのは、手間がかかってしまう。

これに対して、本実施の形態における機械学習装置を用いれば、ＳＶＭが学習したデータの傾向をユーザが確認し、学習に不足している教師データのみを与えることができるので、教師データ準備のための手間が削減される。また、分類精度劣化の原因となる不適切な画像教師データを修正又は削除することもでき、分類精度の向上も図られる。なお、不適切な画像教師データとは、ユーザにもカテゴリの判断がつかないような画像教師データや、カテゴリラベルが間違っている画像教師データのことである。

［具体例］
続いて、図１１〜１５を用いて本実施の形態の具体例について以下に説明する。また、以下の説明では、適宜、図１〜図１０を参照する。図１１は、本発明の実施の形態で行われる各フェーズを概略的に示す図である。

まず、前提として、ユーザによって、画像教師データと画像教師データ候補とが入力され、それぞれ、画像教師データ蓄積部１２又は画像教師データ候補蓄積部１３に蓄積されているとする。その後、図１１に示すように、画像特徴計算フェーズ、モデル学習フェーズ、２次元化フェーズ、教師データ改善フェーズが実行される。

画像特徴計算フェーズ：
画像特徴計算フェーズでは、画像教師データと画像教師データ候補とのぞれぞれから画像の特徴量が計算される。具体的には、特徴計算部１１は、画像教師データ及び画像教師データ候補それぞれから、画像特徴量を計算し、各データを１つの数値データ列に変換する。

また、特徴計算部１１は、画像教師データを画像特徴量に変換して得られた画像特徴教師データを、画像特徴教師データ蓄積部１４に蓄積する。更に、特徴計算部１１は、画像教師データ候補を画像特徴量に変換して得られた画像特徴教師データ候補を、画像特徴教師データ候補蓄積部１５に蓄積する。

また、本実施の形態で用いられる画像特徴量の計算方法は、画像を数値データ列に変換できる方法であれば特に限定されない。画像特徴量の計算方法の具体例としては、SIFT方法（後述の参考文献３参照）、HOG方法（後述の参考文献３参照）、Gabor方法（後述の参考文献４参照）などがある。

例えば、画像特徴量をGabor方法で計算する場合は、まず、特徴計算部１１は、各画像にGaborフィルタを適用し、白黒の画像に変換する。図１２に示すように、Gaborフィルタが適用された画像は、特定の方向に対する線が白く浮かび上がった画像となる。図１２は、Gaborフィルタが適用される前の画像と適用された後の画像とを示す図である。

次に、特徴計算部１１は、Gaborフィルタを適用した画像を等間隔で分割し、各区画に含まれるピクセル値の割合を計算し、そして、各区画のピクセル値の割合を横に並べた数値列を画像特徴量とする。また、特徴計算部１１は、画像特徴量に、元々の画像教師データの名前とカテゴリラベルとを付加して、画像特徴教師データとする。特徴計算部１１は、変換元のデータにカテゴリラベルが付加されていない場合は、画像特徴量に元々の画像教師データ候補の名前を付加して、画像特徴教師データ候補とする。

画像特徴計算フェーズで計算された画像特徴教師データと画像特徴教師データ候補とは、次のモデル学習フェーズにおいて、ＳＶＭとＳＯＭの学習モデルの作成に用いられる。

モデル学習フェーズ：
ＳＶＭ学習部２１は、画像特徴教師データを入力として、カテゴリ０又は１の判断基準であるＳＶＭ学習モデルを、後述の参考文献１に記載の反復的学習法を用いて作成し、作成したＳＶＭ学習モデルを、ＳＶＭ学習モデル保持部２３に保存させる。具体的には、ＳＶＭ学習モデルは、ＳＶＭを用いてデータを２つのカテゴリに分割する分類境界線を表すパラメータ値である。

ＳＯＭ学習部２２は、画像特徴教師データを入力として、ＳＯＭ代表データ（図７（ｃ）参照）を作成し、これをＳＯＭ代表データ保持部２４に保存させる。ＳＯＭにおいて、教師データを元にＳＯＭ代表データを計算することを学習とよぶ。

ＳＯＭは、教師なし機械学習手法であるため、画像教師データに付加されている１又は０のカテゴリラベルは不要となる。また、本実施の形態では、ＳＶＭにおいて用いられているカーネル関数が、ＳＯＭでのデータ間の距離定義として用いられる。カーネル関数の例としては、多項式カーネル（後述の参考文献１参照）や、ガウシアンカーネル（後述の参考文献１参照）等が挙げられる。また、ＳＯＭ代表データは、後述の参考文献５に開示されている方法を用いて作成することができる。

また、本実施の形態において、ＳＯＭ代表データは、図７（ｃ）に示すように、マトリクス状に区切られた各区画（図２参照）の代表データとその区画の区画番号とで構成された数値列データである。また、区画の代表データは、画像特徴量と同じ数の要素を持つ数値列データである。

そして、ＳＶＭとＳＯＭの学習が終了すると、ＳＶＭ学習モデルと、画像特徴教師データと、画像特徴教師データ候補とは、次の２次元化フェーズにおいて、ＳＯＭ代表データに基づいて、２次元化される。

２次元化フェーズ：
２次元化フェーズでは、２次元化部３０が、ＳＶＭ学習モデルを、ＳＯＭを用いて２次元化する。学習モデル２次元化部３１は、ＳＯＭ代表データを、ＳＶＭ学習モデルを用いて分類する。ＳＶＭを用いたデータの分類方法としては、後述の参考文献１に開示された手法が挙げられる。

ＳＯＭ代表データ（図７（ｃ）参照）の各区画を、ＳＶＭを用いて分類することにより、ＳＯＭを構成するマトリクス状の各区画（図２参照）が、カテゴリ０又は１のどちらに属するかわかる。ＳＯＭの各区画は、ＳＶＭがデータを分類する際に使用している距離定義を使用して２次元平面を構成している。ＳＯＭが捉えているデータの距離空間とＳＶＭの距離空間は同じであるため、ＳＯＭ代表データをＳＶＭで分類することにより、ＳＶＭ学習が学習した判断基準を２次元化出来る。

また、学習モデル２次元化部３１は、ＳＯＭ代表データに対して、ＳＶＭで分類した０、１のカテゴリラベルを付加し、これによって２次元学習モデル（図８（ｃ）参照）とし、２次元学習モデルを２次元学習モデル保持部３４に保存する。

教師データ２次元化部３２は、各画像特徴教師データに対して最も距離が小さいＳＯＭ代表データ（図２参照）を計算し、そのＳＯＭ代表データが所属する区画を、画像特徴教師データの所属区画とする。また、教師データ２次元化部３２は、画像特徴教師データに所属区画情報を付加し、これを２次元教師データ（図８（ａ）参照）として、２次元教師データ保持部３５に保存する。

また、本実施の形態では、画像特徴教師データとＳＯＭ代表データとの距離を特定する距離関数としては、ＳＶＭで使用されているカーネル関数が使用される。例えば、画像特徴教師データ（図７（ａ）参照）の画像データ１が、ＳＯＭ代表データ（図７（ｃ）参照）の中で、区画番号１のＳＯＭ代表データと最も近いとする。この場合は、教師データ２次元化部３２は、画像データ１の所属区画は１であるとして、２次元教師データ（図８（ａ）参照）を作成する。

また、教師データ候補２次元化部３３は、教師データ２次元化部３２と同様の処理を実行することによって、画像特徴教師データ候補それぞれについて、所属区画を求め、所属区画情報を付加する。更に、教師データ候補２次元化部３３は、所属区画情報が付加された画像特徴教師データ候補を、２次元教師データ候補（図８（ｂ）参照）として、２次元教師データ候補保持部３５に保存する。

例えば、画像特徴教師データ候補（図７（ｂ）参照）の画像データ１が、ＳＯＭ代表データ（図７（ｃ）参照）の中で、区画番号２９のＳＯＭ代表データと最も近いとする。この場合は、教師データ候補２次元化部３３は、画像データ１の所属区画は２９であるとして、２次元教師データ候補（図８（ｂ）参照）を作成する。

データ合成部３７は、合成２次元データを作成する。具体的には、データ合成部３７は、２次元学習モデルと、２次元教師データと、２次元教師データ候補とを用いて、ＳＯＭの区画を基準とした合成２次元データ（図９参照）を作成する。また、データ合成部３７は、作成した合成２次元データを合成２次元データ保持部３８に保存する。

本実施の形態において、合成２次元データは、図９に示すように、ＳＯＭ代表データに対して、各区画のカテゴリラベルと、各区画に所属する画像特徴教師データの名称と、各区画に所属する画像特徴教師データ候補の名称とを付加して構成されている。

例えば、データ合成部３７は、２次元学習モデル（図８（ｃ）参照）の区画番号１に対して、２次元教師データ（図８（ａ）参照）の中から所属区画番号が１になっているデータを特定し、そのデータの画像データ名を区画番１の所属画像特徴教師データとする。また、同様に、データ合成部３７は、２次元教師データ候補（図８（ｂ）参照）の中からも区画番号１に所属するデータを探し、その画像データ名を区画番号１の所属画像教師データ候補とする。

このようにして得られた合成２次元データは、次の教師データ改善フェーズでは、可視化されてユーザに提示される。その後、修正、削除、又は追加の必要な画像教師データがユーザに提示し、ユーザに対して、画像教師データの改善が指示される。

教師データ改善フェーズ：
合成２次元データ提示部４１は、合成２次元データ保持部３８に保持されている合成２次元データ（図９参照）を用いて、ＳＶＭの学習モデルと、画像教師データと、画像教師データ候補とをユーザに提示する。以下、図１３及び図１４を用いて具体的に説明する。図１３は、本発明の実施の形態において可視化された合成２次元データの一例を示す図である。図１４は、図１３に示す合成２次元データにおいて、画像教師データの修正、削除又は追加が必要な場合の一例を示す図である。

［１］ＳＶＭ学習モデルの提示
合成２次元データ提示部４１は、合成２次元データ保持部３８に保持されている合成２次元データ（図９参照）を２次元マップとして可視化する。その際、合成２次元データ提示部４１は、各ＳＯＭ代表データに付与されているカテゴリラベルに合せて、可視化された２次元マップの区画の色を変化させる。

例えば、合成２次元データ提示部４１は、図１３に示すように、カテゴリラベル１が付いている区画は赤色で表示し、カテゴリラベル０が付いている区画を青色で表示する。また、合成２次元データ提示部４１は、各区画の色の濃さを、それに所属する画像教師データ（図６（ａ）参照）の数に応じて変化させる。また、このとき、各区画に所属する画像教師データの数が６個以上であれば、色を濃くし、２〜５個であれば色を薄くし、１個以下であれば限りなく白に近い色とする。

具体的には、図９に示す合成２次元データにおいて、区画番号３の区画（最上段の左から三番目）では、カテゴリラベルが１であり、所属する画像教師データが３個であるとする。この場合、図１３に示す２次元マップ上では、区画番号３の区画は、薄い赤色で表示されることになる。なお、図１３においては、色の違いは、ハッチングの種類によって表現されている。また、色の濃さは、ハッチングのピッチによって表現されている。

［２］画像教師データの提示
また、合成２次元データ提示部４１は、各区画に所属する画像教師データを元に、区画毎に、所属する画像教師データのカテゴリラベル別の比率を計算する。そして、図１３に示すように、合成２次元データ提示部４１は、所属する画像教師データのカテゴリラベルが全て一致していない区画については、その区画の中央に円形の図形を表示し、円形の図形を色分けする。また、このとき、色分けの比率によって、カテゴリラベルの比率が表現される。

具体的には、合成２次元データ提示部４１は、合成２次元データのある区画に所属している画像教師データのすべてのカテゴリラベルが１であれば、２次元マップ（図１３参照）の区画の中心の円形の図形は赤色のみで表示する。一方、合成２次元データ提示部４１は、ある区画に所属している画像教師データの半分のカテゴリラベルが１で、残りの半分のカテゴリラベルが０であれば、区画の中心の円形の図形は、半分を赤色で表示し、残りの半分を青色で表示する。

また、図１３に示すように、ユーザが２次元マップ上の特定の区画を指定すると、合成２次元データ提示部４１は、その区画に所属している画像特徴データの変換元の画像教師データ（図６（ａ）参照）を表示する。例えば、ユーザが、赤色と青色とで表現された円形の図形が表示された区画を指定したとする。また、この区画に所属している画像教師データの数は２つであるとする。この場合は、合成２次元データ提示部４１は、カテゴリラベル１が付加された１つの画像教師データと、カテゴリラベル０が付加された１つの画像教師データとを表示させる。

［３］画像教師データ候補の提示
ユーザが２次元マップ上の特定の区画を指定すると、合成２次元データ提示部４１は、図１３に示すように、その区画に所属している画像教師データ（図６（ａ）参照）に加え、画像教師データ候補（図６（ｂ）参照）も表示することができる。例えば、上述したように、ユーザが、赤色と青色とで表現された円形の図形が表示された区画を指定したとする。この場合は、合成２次元データ提示部４１は、カテゴリラベル１が付加された画像教師データと、カテゴリラベル０が付加された画像教師データに加えて、画像教師データ候補も表示させる。

［４］修正又は削除が必要な画像教師データの提示
教師データ改善部４１は、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとを対比する。そして、教師データ改善部４１は、対比の結果に基づいて、ユーザに対して、画面上で、この区画に紐付けられている画像特徴教師データの変換元の教師データに対する、削除又はラベルの修正を指示する。

例えば、図１４に示すように、合成２次元データ（図９参照）において、特定の区画の周囲ｋマスに位置している区画のカテゴリラベルが全て同一であり、且つ、特定の区画に所属している画像教師データのカテゴリラベルが、その周囲の区画のカテゴリラベルと異なっているとする。この場合、教師データ改善部４２は、該当する区画に所属する画像教師データは要修正画像教師データであると、ユーザに提示する。

具体的には、ｋ＝１であるとする。また、合成２次元データにおいて、区画番号１の周囲１マスの範囲にある他の区画に所属する画像教師データのカテゴリラベルは、全て１であるが、区画番号１の区画に所属する画像教師データのカテゴリラベルは０であるとする。この場合、教師データ改善部４２は、区画番号１の区画に所属する画像教師データについて、カテゴリラベルの修正が必要なことをユーザに提示する。

また、図１４に示すように、例えば、合成２次元データにおいて、特定の区画の周囲ｋマスに位置している区画のカテゴリラベルが１つでも他の周囲の区画のカテゴリラベルと異なっているとする。更に、特定の区画に所属している一部の画像教師データのカテゴリラベルが、同じ特定の区画に所属している他の画像教師データのカテゴリラベルと異なっているとする。このような場合、教師データ改善部４２は、特定の区画に所属している一部の画像教師データは要削除画像教師データであると、ユーザに提示する。

具体的には、ｋ＝１であるとする。また、合成２次元データにおいて、区画番号５の周囲１マスの範囲にある区画のカテゴリラベルが１以上、他の周囲の区画のカテゴリラベルと異なっているとする。また、区画番号５の区画に所属する複数の画像教師データのカテゴリラベルは全て同一でないとする。この場合、教師データ改善部４２は、区画番号５の区画に所属する複数の画像教師データのうち、カテゴリラベルが少数派となる画像教師データについて、削除が必要なことをユーザに提示する。

［５］追加対象となる教師データ候補の提示
教師データ改善部４１は、対象となる区画に紐付けられている画像特徴教師データの個数が閾値以下である場合に、対象となる区画に紐付けられている画像特徴教師データ候補の変換元の教師データ候補を、画面上に表示させる。そして、教師データ改善部４１は、ユーザに対して、教師データ候補を教師データとして追加するように指示する。

例えば、図１４に示すように、教師データ改善部４１は、合成２次元データにおいて、各区画について、所属する画像教師データの数を特定し、特定した数がｓ個以下であるかどうかを判定する。そして、判定の結果、ｓ個以下である場合は、教師データ改善部４１は、その区画に所属する画像教師データ候補を要追加画像教師データ候補として、ユーザに提示する。

具体的には、例えば、ｓ＝３であり、合成２次元データにおいて、区画番号３に所属する画像教師データが３つであるとする。この場合、教師データ改善部４１は、区画番号３に所属する画像教師データ候補を、要追加教師データ候補として提示する。

［６］ユーザによる画像教師データの修正、削除、追加
上述の［４］及び［５］で説明したように、ユーザは提示を受けると、画像教師データのカテゴリラベルの修正、画像教師データの削除、画像教師データ候補（図９、９０２）にカテゴリラベルを付加することによる画像教師データの追加を実行する。この後、画像教師データが修正、削除、追加された状態で、再度、機械学習が実行される。

［実施の形態における効果］
以上のように、本実施の形態によれば、教師あり機械学習手法ＳＶＭが画像教師データから学習した分類基準を可視化することができる。また、画像教師データを学習したＳＶＭにおいて、画像教師データが不足している場合は、そのことが提示され、更に、適切な画像教師データ候補も提示されるので、ユーザにおける手間が大きく軽減される。更に、ＳＶＭが学習した画像教師データの中から、学習に不適切な画像教師データが抽出され、それが提示されるので、機械学習を利用したシステムの精度の向上が図られる。

［応用例］
本実施の形態は、教師データが画像データであり、得られたＳＶＭ学習モデルが画像分類システムとして利用される場合について説明しているが、本実施の形態では、画像データ以外のデータを教師データとして扱うこともできる。また、本実施の形態は、ＳＶＭ学習モデルを使ったテキスト分類システム及び音声分類システムにも適用できる。

テキスト分類システム：
本実施の形態が、テキスト分類システムに適用される場合は、図２において、画像教師データ蓄積部１２はテキスト教師データ蓄積部となり、画像教師データ候補蓄積部１３はテキスト教師データ候補蓄積部となる。また、画像特徴教師データ蓄積部１４と画像特徴教師データ候補蓄積部１５は、それぞれ、テキスト特徴教師データ蓄積部とテキスト特徴教師データ候補蓄積部とになる。

また、テキスト教師データとしては、分類対象のテキストに対してカテゴリラベル１又は０が付加されたテキストデータが挙げられる。この場合、図２において、特徴計算部１１は、テキストデータの特徴を算出する。具体的には、特徴計算部１１は、あるテキストに出現する単語の個数及び種類、テキストの作成者といった情報を、特徴量として数値列化する。

本実施の形態におけるテキスト分類システムによれば、テキストの分類精度を向上させることができる。また、テキスト分類システムの具体的な用途としては、メール文書を使ったスパムメールを分類するシステムが挙げられ、スパムメールの分類精度の向上が期待できる。更に、このシステムでは、ＳＶＭで分類する対象データはメール文書となり、カテゴリラベル１をスパムメール、カテゴリラベル０を通常メールとすればよい。

音声分類システム：
本実施の形態が、人の音声データを分類する音声分類システムに適用される場合は、図２において、画像教師データ蓄積部１２は音声教師データ蓄積部となり、画像教師データ候補蓄積部１３は音声教師データ候補蓄積部となる。また、画像特徴教師データ蓄積部１４と画像特徴教師データ候補蓄積部１５は、それぞれ、音声特徴教師データ蓄積部と音声特徴教師データ候補蓄積部とになる。

また、音声教師データとしては、分類対象の音声に対してカテゴリラベル１又は０が付加された音声データが挙げられる。また、この場合、特徴計算部１１は、音声データの特徴を算出する。

具体的には、特徴計算部１１は、ある音声データをフーリエ変換し、その際の周波数、音量といった情報を、特徴量として数値列化する。本実施の形態における音声分類システムによれば、音声データの分類精度を向上させることができる。また、音声分類システムの具体的な用としては、コールセンターにおいて顧客の感情を分類するシステムが挙げられる。このシステムでは、カテゴリラベル１を怒っている音声、カテゴリラベル０を通常音声とすればよい。

以上のように、本実施の形態においては、教師データは、特徴量の算出が可能である限り、特に限定されることはない。本実施の形態は、機械学習が必要な種々のシステムに有効である。

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図１０に示すステップＡ１〜Ａ１１を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における機械学習装置１００と機械学習方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、特徴計算部１１、ＳＶＭ学習部２１、ＳＯＭ学習部２２、ＳＶＭ分類部２５、ＳＯＭ分類部２６、学習モデル２次元化部３１、教師データ２次元化部３２、教師データ候補２次元化部３３、及びデータ合成部３７として機能し、処理を行なう。

ここで、本実施の形態におけるプログラムを実行することによって、機械学習装置１００を実現するコンピュータについて図１５を用いて説明する。図１５は、本発明の実施の形態機械学習装置を実現するコンピュータの一例を示すブロック図である。

図１５に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、特徴計算部と、
前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
前記分類の結果を表す２次元学習モデルを生成する、学習モデル２次元化部と、
を備えることを特徴とする、機械学習装置。

（付記２）
前記２次元マップを用いて、前記第１の数値データに対応する前記区画を特定する、自己組織化マップ分類部と、
前記第１の数値データと、特定された前記区画とを紐付ける、２次元教師データを作成する、教師データ２次元化部と、
を更に備えている、付記１に記載の機械学習装置。

（付記３）
当該機械学習装置が、教師データ候補２次元化部を更に備え、
前記特徴計算部が、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第２の数値データに変換し、
前記自己組織化マップ分類部が、更に、前記２次元マップを用いて、前記第２の数値データに対応する前記区画を特定し、
前記教師データ候補２次元化部は、前記第２の数値データと、特定された前記区画とを紐付ける、２次元教師データ候補を作成する、
付記２に記載の機械学習装置。

（付記４）
当該機械学習装置が、
前記分類の結果を示す前記２次元学習モデルに、前記２次元教師データと、前記２次元教師データ候補とを組み合せて、合成２次元データを作成する、データ合成部と、
前記合成２次元データに基づいて、画面上に、前記分類の結果を示す前記２次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第１の数値データの個数、及び当該区画に紐付けられている前記第１の数値データのラベルの内容を明示する、合成２次元データ提示部と、
を更に備えている付記３に記載の機械学習装置。

（付記５）
前記合成２次元データ提示部が、
表示されている前記区画のいずれかが選択された場合に、
選択された区画に紐付けられている前記第１の数値及び前記第２の数値データを特定し、特定した前記第１の数値データの変換元の教師データと、特定した前記第２の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記４に記載の機械学習装置。

（付記６）
当該機械学習装置が、教師データ改善部を更に備え、
前記教師データ改善部は、対象となる区画に紐付けられている第１の数値データとその周辺に位置する区画に紐付けられている第１の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第１の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、
付記５に記載の機械学習装置。

（付記７）
前記教師データ改善部は、対象となる区画に紐付けられている第１の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第２の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、
付記６に記載の機械学習装置。

（付記８）
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を有することを特徴とする、機械学習方法。

（付記９）
（ｆ）前記２次元マップを用いて、前記第１の数値データに対応する前記区画を特定する、ステップと、
（ｇ）前記第１の数値データと、特定された前記区画とを紐付ける、２次元教師データを作成する、ステップと、
を更に有する、付記８に記載の機械学習方法。

（付記１０）
前記（ａ）のステップにおいて、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第２の数値データに変換し、
前記（ｆ）のステップにおいて、更に、前記２次元マップを用いて、前記第２の数値データに対応する前記区画を特定し、
当該機械学習方法が、更に、
（ｇ）前記第２の数値データと、特定された前記区画とを紐付ける、２次元教師データ候補を作成する、ステップを有する、
付記９に記載の機械学習方法。

（付記１１）
（ｈ）前記分類の結果を示す前記２次元学習モデルに、前記２次元教師データと、前記２次元教師データ候補とを組み合せて、合成２次元データを作成する、ステップと、
（ｉ）前記合成２次元データに基づいて、画面上に、前記分類の結果を示す前記２次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第１の数値データの個数、及び当該区画に紐付けられている前記第１の数値データのラベルの内容を明示する、ステップと、
を更に有する、付記１０に記載の機械学習方法。

（付記１２）
前記（ｉ）のステップにおいて、表示されている前記区画のいずれかが選択された場合に、選択された区画に紐付けられている前記第１の数値及び前記第２の数値データを特定し、特定した前記第１の数値データの変換元の教師データと、特定した前記第２の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記１１に記載の機械学習方法。

（付記１３）
（ｊ）対象となる区画に紐付けられている第１の数値データとその周辺に位置する区画に紐付けられている第１の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第１の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、ステップを、
更に有する、付記１２に記載の機械学習方法。

（付記１４）
（ｋ）対象となる区画に紐付けられている第１の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第２の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、ステップを、
更に有する、付記１３に記載の機械学習方法。

（付記１５）
コンピュータに、
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を実行させるプログラム。

（付記１６）
前記コンピュータに、更に、
（ｆ）前記２次元マップを用いて、前記第１の数値データに対応する前記区画を特定する、ステップと、
（ｇ）前記第１の数値データと、特定された前記区画とを紐付ける、２次元教師データを作成する、ステップと、
を実行させる、付記１５に記載のプログラム。

（付記１７）
前記（ａ）のステップにおいて、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第２の数値データに変換し、
前記（ｆ）のステップにおいて、更に、前記２次元マップを用いて、前記第２の数値データに対応する前記区画を特定し、
当該機械学習方法が、更に、
（ｇ）前記第２の数値データと、特定された前記区画とを紐付ける、２次元教師データ候補を作成する、ステップを有する、
付記１６に記載のプログラム。

（付記１８）
前記コンピュータに、更に、
（ｈ）前記分類の結果を示す前記２次元学習モデルに、前記２次元教師データと、前記２次元教師データ候補とを組み合せて、合成２次元データを作成する、ステップと、
（ｉ）前記合成２次元データに基づいて、画面上に、前記分類の結果を示す前記２次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第１の数値データの個数、及び当該区画に紐付けられている前記第１の数値データのラベルの内容を明示する、ステップと、
を実行させる、付記１７に記載のプログラム。

（付記１９）
前記（ｉ）のステップにおいて、表示されている前記区画のいずれかが選択された場合に、選択された区画に紐付けられている前記第１の数値及び前記第２の数値データを特定し、特定した前記第１の数値データの変換元の教師データと、特定した前記第２の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
付記１８に記載のプログラム。

（付記２０）
前記コンピュータに、更に、
（ｊ）対象となる区画に紐付けられている第１の数値データとその周辺に位置する区画に紐付けられている第１の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第１の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、ステップを、
実行させる、付記１９に記載のプログラム。

（付記２１）
前記コンピュータに、更に、
（ｋ）対象となる区画に紐付けられている第１の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第２の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、ステップを、
実行させる、付記２０に記載のプログラム。

参考文献１：津田宏治, “サポートベクターマシンとは何か”,電子情報通信学会誌, pp.460-466, 2000-06-25
参考文献２：T.Kohonen, “Self-Organizing Maps”, Springer Series in Information Sciences
参考文献３：藤吉弘亘 , “Gradientベースの特徴抽出 - SIFTとHOG -”, 情報処理学会研究報告CVIM 160, pp. 211-224, 2007
参考文献４：SHEN Linlin, “Gabor Features and Support Vector Machine for Face Identification” , Biomedical fuzzy and human sciences : the official journal of the Biomedical Fuzzy Systems Association 14(1), pp.61-66, 2009-01-00
参考文献５：井口亮 , 宮本定明 ,“カーネル関数を利用したＬＶＱクラスタリングとＳＯＭ” ,知能と情報（日本知能情報ファジィ学会誌） , Vol.17 , No.1 , pp.88-91 ,2005

以上のように、本発明によれば、教師あり機械学習を利用した処理の精度を高めつつ、ユーザにおける教師データの収集の手間を軽減することができる。本発明は、機械学習が求められる種々のシステム、例えば、侵入検知システム、テキスト分類システム、音声分類システム等に有用である。

１０前処理部
１１特徴計算部
１２画像教師データ蓄積部
１３画像教師データ候補蓄積部
１４画像特徴教師データ蓄積部
１５画像特徴教師データ候補蓄積部
２０学習部
２０ａＳＶＭ部
２０ｂＳＯＭ部
２１ＳＶＭ学習部
２２ＳＯＭ学習部
２３ＳＶＭ学習モデル保持部
２４ＳＯＭ代表データ保持部２４
２５ＳＶＭ分類部２５
２６ＳＯＭ分類部
３０２次元化部
３１学習モデル２次元化部
３２教師データ２次元化部
３３教師データ候補２次元化部
３４２次元学習モデル保持部
３５２次元教師データ保持部
３６２次元教師データ候補保持部
３７データ合成部
３８合成２次元データ保持部
４０提示部
４１合成２次元データ提示部
４２教師データ改善部
１００機械学習装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、特徴計算部と、
前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、サポートベクトルマシン学習部と、
前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する区画に所属させる、自己組織化マップ学習部と、
前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記区画及び前記代表データを分類する、サポートベクトルマシン分類部と、
前記分類の結果を表す２次元学習モデルを生成する、学習モデル２次元化部と、
を備えることを特徴とする、機械学習装置。
前記２次元マップを用いて、前記第１の数値データに対応する前記区画を特定する、自己組織化マップ分類部と、
前記第１の数値データと、特定された前記区画とを紐付ける、２次元教師データを作成する、教師データ２次元化部と、
を更に備えている、請求項１に記載の機械学習装置。
当該機械学習装置が、教師データ候補２次元化部を更に備え、
前記特徴計算部が、更に、前記ラベルが付与されていない教師データ候補を、その特徴を数値で表す第２の数値データに変換し、
前記自己組織化マップ分類部が、更に、前記２次元マップを用いて、前記第２の数値データに対応する前記区画を特定し、
前記教師データ候補２次元化部は、前記第２の数値データと、特定された前記区画とを紐付ける、２次元教師データ候補を作成する、
請求項２に記載の機械学習装置。
当該機械学習装置が、
前記分類の結果を示す前記２次元学習モデルに、前記２次元教師データと、前記２次元教師データ候補とを組み合せて、合成２次元データを作成する、データ合成部と、
前記合成２次元データに基づいて、画面上に、前記分類の結果を示す前記２次元学習モデルの前記区画を表示させ、その際、前記区画それぞれにおいて、前記分類の結果、当該区画に紐付けられている前記第１の数値データの個数、及び当該区画に紐付けられている前記第１の数値データのラベルの内容を明示する、合成２次元データ提示部と、
を更に備えている請求項３に記載の機械学習装置。
前記合成２次元データ提示部が、
表示されている前記区画のいずれかが選択された場合に、
選択された区画に紐付けられている前記第１の数値及び前記第２の数値データを特定し、特定した前記第１の数値データの変換元の教師データと、特定した前記第２の数値データの変換元の教師データ候補とを、前記画面上に表示させる、
請求項４に記載の機械学習装置。
当該機械学習装置が、教師データ改善部を更に備え、
前記教師データ改善部は、対象となる区画に紐付けられている第１の数値データとその周辺に位置する区画に紐付けられている第１の数値データとを対比し、対比の結果に基づいて、前記画面上で、前記対象となる区画に紐付けられている第１の数値データの変換元の教師データに対する、削除又はラベルの修正を指示する、
請求項５に記載の機械学習装置。
前記教師データ改善部は、対象となる区画に紐付けられている第１の数値データの個数が閾値以下である場合に、前記対象となる区画に紐付けられている前記第２の数値データの変換元の教師データ候補を、前記画面上に表示させて、前記教師データ候補を前記教師データとして追加するように指示する、
請求項６に記載の機械学習装置。
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を有することを特徴とする、機械学習方法。
コンピュータに、
（ａ）２値のいずれかがラベルとして付与された教師データを、その特徴を数値で表す第１の数値データに変換する、ステップと、
（ｂ）前記教師データを変換して得られた第１の数値データに基づいて、サポートベクトルマシンを用いて、前記ラベルにおける前記２値の判断基準を学習し、学習結果を示す学習モデルを作成する、ステップと、
（ｃ）前記教師データを変換して得られた第１の数値データを、自己組織化マップ処理によって、マトリクス状の区画と各区画に所属する代表データとで構成された２次元マップに投影し、その際、距離が近い２以上の前記第１の数値データは、近接する又は同一の区画に所属させる、ステップと、
（ｄ）前記（ｂ）のステップで作成された前記学習モデルを用いて、前記第１の数値データが投影された前記２次元マップの前記代表データを分類する、ステップと、
（ｅ）前記（ｄ）のステップでの前記分類の結果を表す２次元学習モデルを生成する、ステップと、
を実行させるプログラム。